Está en la página 1de 46

2

Curso 21/22

Estadística descriptiva e inferencial

UDIMA

2
3

Índice 1 La estadística y la investigación científica…….………..…pag


.......................................................................................¡Error! Marcador no definido.
2 Definición de conceptos e introducción al muestreo…..pag................................6
3 Organización de datos……………………………………..………..pag............10
4 Representaciones gráficas de las distribuciones de
frecuencias………………………………………………………………….pag.....13
5 Medidas de tendencia central……………………………………pag................17
6 Medidas de dispersión o variabilidad……………………..…pag.....................21
7 Introducción a la probabilidad…………………………………..pag................25
8 Introducción a la inferencia estadística…………………..pag..........................30
9 Teoría de la correlación…………………………………………..pag................37
10 Regresión lineal simple…………………………………………..pag...............40

3
4

1. La estadística y la investigación científica

• Método científico: conjunto de procedimientos que se utilizan en las diversas ciencias para conseguir conocimientos
válidos que se puedan comprobar, contrastar y verificar a través de instrumentos fiables.
• Confirmación: búsqueda de datos que apoyen la hipótesis.
• Falsación. Búsqueda de datos que refuten la hipótesis.
• Métodos: formas o procedimientos utilizados en investigación para obtener datos que se utilizarán como bases para la
inferencia, interpretación, explicación y predicción de la realidad
• Conocimiento científico. Cúmulo de información que la especie humana ha ido adquiriendo sobre la naturaleza y sobre
sí misma. Es un subconjunto del conocimiento humano.
• Reproductibilidad: replicación de un mismo experimento en situaciones diferentes obteniendo los mismos resultados
independientemente de quien lo realice.
• Falsabilidad: proceso por el cual se verifica que una proposición o hipótesis es falsa cuando se consigue demostrar
mediante la experiencia.
• Método deductivo: (de abstracto a concreto) variante del método científico que parte de una ley general, obtenida
mediante procesos lógicos, para después extraer conclusiones que aplicará a la realidad (de lo general a lo concreto).El
método deductivo suele asociarse con la metodología cuantitativa, aunque no de forma exclusiva.
• Método inductivo: (de concreto a abstracto) variante del método científico que parte de la observación directa de la
realidad, para generalizar esa experiencia y llegar a una conclusión o a la formulación de la ley correspondiente. (de lo
concreto a lo general).El método inductivo suele asociarse con la metodología cualitativa, aunque no de forma exclusiva.
En el método inductivo se valora la experiencia como punto de partida para la generación del conocimiento. Las
conclusiones obtenidas de la inducción tienen un carácter probable y se vuelven más fiables a medida que se incrementa
el número de hechos particulares que se examinan.
• Método hipotético-deductivo. Variante del método científico que va desde los datos a la teoría y de la teoría a los datos
para establecer conclusiones. Los pasos a seguir pueden ser la identificación del problema, laelaboración de preguntas y/o
deducción de hipótesis contrastables, la recogida de datos, el análisis de los resultados obtenidos y la búsqueda de
conclusiones.
• Ciencias del comportamiento: estudio científico de la conducta y la experiencia humana.
_______________________________________________________________________________________________
• Definición del problema de investigación: fase del proceso de investigación en el que se plantea una pregunta que
pueda ser resuelta a través del método científico. Los requisitos que deben cumplir las preguntas para que sea fac tible
investigarlas son:
o Que no se conozca la respuesta.
o Que pueda ser contestada con evidencia empírica.
o Que implique usar medios éticos.
o Que el conocimiento que se obtenga a partir de ella sea sustancial.
_______________________________________________________________________________________________
• Elaboración del marco teórico o conceptual: fase del proceso de investigación en la que se elabora un marco
conceptual con base en la teoría existente sobre el fenómeno a estudiar. Para ello, se debe realizar una búsqueda de
documentación y artículos científicos publicados sobre el tema. Esto último es especialmente útil para definir las
variables que se pretende estudiar.
• Definición de variables: fase del proceso de investigación en la que con base en el marco teórico o conceptual se
identifica y define las variables que se pretende medir.
• Variable: característica medible que cambia (o varía) a través del tiempo de un individuo a otro.

4
5

• Constante: característica de los sujetos u objetos de estudio que no cambian ni varían.

• Variable dependiente: la variable que es objeto de predicción o cuya variación se pretende explicar (efecto,re sultado,
respuesta, consecuencia).
• Variable independiente: las variables de predicción que se usan para predecir la variación de las variables dependientes
y que en el caso de los experimentos son manipuladas por el investigador (causa, predictor, estímulo, intervención,
tratamiento).
• Variable extraña:no son la (o las) variables independientes, peropueden influir en la variable dependiente y que se hace
necesario controlar.
_______________________________________________________________________________________________
• Formulación de hipótesis: fase del proceso de investigación en la que se realizan proposiciones lógicas y contrastables
empíricamente para responder a las preguntas de investigación.
• Hipótesis:son las respuestas a las preguntas formuladas en el primer paso del procedimiento de investigación. Las
respuestas se realizan en forma de proposición que puede ser verificada o falseada de acuerdo al análisis estadístico de los
datos empíricos. Las hipótesis se pueden definir como una predicción del comportamiento de una variable o de la
relación entre dos o más variables. Las hipótesis se deben basar en las teorías existentes o proponer una nueva teoría.
_______________________________________________________________________________________________
• Selección de un diseño de investigación: fase del proceso de investigación en la que se elige un diseño (exploratorio,
descriptivo, relacional o experimental) en el que se define como se medirán, recopilarán y analizarán los datos. La
elección del diseño depende del problema que se está investigando, del tipo de variables y de la escala y profundidad del
análisis.
• Diseños exploratorios. Se trata de investigaciones en las que el interés es resolver problemas prácticos o, como su
nombre indica, explorar fenómenos sobre los que hay tan poco conocimiento que resulta difícil establecer una hipótesis
teórica.
• Diseños descriptivos. El interés primordial de este tipo de investigaciones es describir la variable que está siendo
estudiada. Para la descripción de variables cuantitativas.
• Diseños relacionales. Cuando el interés es estudiar la relación entre variables, se puede decir que el diseño es
correlacional, y para analizar los datos en este tipo de diseño, se suelen utilizar estadísticos de correlación lineal.
• Diseños experimentales. Cuando el interés del investigador es explicar o predecir una (o varias) variable(s)
dependiente(s) en función de una o más variables independientes, podemos hablar de diseños experimentales, que son los
de mayor complejidad, pues se cuenta con varios tipos de diseño, que podemos aplicar según la cantidad y tipo de
variables implicadas. También existen varios y diversos procedimientos estadísticos que podemos utilizar y su aplicación
depende tanto del tipo de diseño elegido como del cumplimiento de supuestos en los datos que se pretenden analizar. Una
de las tareas más delicadas y que suele presentar mayores inconvenientes a la hora de realizar una investigación es
precisamente la elección del diseño y del tipo de análisis estadístico más adecuado para cada diseño. Los estadísticos que
se suelen utilizar en diseños experimentales forman parte de la rama de la estadística llamada estadística inferencial.
_______________________________________________________________________________________________
• Análisis de datos y establecimiento de conclusiones: fase del proceso de investigación en la que se utiliza la estadística
como herramienta para establecer conclusiones. La estadística nos servirá para establecer conclusiones tanto a nivel
descriptivo como correlacional y causal.
• Difusión de los resultados: fase del proceso de investigación en la que se divulgan los resultados
encontrados,principalmente, a través de informes de investigación y de publicaciones de artículos generalmente mediante
su publicación en revistas científicas.
_______________________________________________________________________________________________
• Estadística: rama derivada de las matemáticas que se refiere a la recolección, organización, análisis e interpretación de
datosy es una herramienta que permite al investigador sacar conclusiones legítimas y tomar decisiones razonables basadas
en el análisis de la información o de los datos. También se puede definir como una herramienta de la ciencia que recoge,
ordena y analiza datos de una muestra extraída de una población y que, a partir de esa muestra, valiéndose del cálculo de
probabilidades, se encarga de hacer inferencias acerca de la población.
5
6

• Estadística descriptiva: rama de la estadística que consta de una serie de procedimientos para organizar y sintetizar
información contenida en un conjunto de datos. En otras palabras, es la parte de la estadística que se ocupa de analizar o
caracterizar un grupo dado sin sacar conclusiones y generalizaciones sobre la población.
• Estadística inferencial. Rama de la estadística que consta de una serie de procedimientos para generalizar, inferir o
deducir las propiedades de un
grupo de datos (llamado
muestras) al conjunto total de
datos (llamado población) a los Elaboración de
que representan. Identificación del
preguntas y/o
Recogida de Análisis de Búsqueda de
deducción de
problema datos resultados conclusiones
hipotesis
contrastables

Sirve para extraer conclusiones que van más allá de la descripción de los datos. Para poder realizar esta generalización, es
imprescindible que el conjunto de datos utilizados para obtener información (muestra) sea representativo del conjunto total
de datos (población) sobre el que deseamos realizar la inferencia; esto se consigue mediante técnicas de muestreo, las cuales
también pertenecen al ámbito de la estadística.

2. Definición de conceptos e introducción al


muestreo.
1. ESCALAS, VARIABLES Y DATOS EN LAS CIENCIAS DEL COMPORTAMIENTO

• Dato: unidad de información que es analizada por medio de la estadística. Un dato puede ser un número (si la variable es
cuantitativa) o una modalidad (si la variable es cualitativa). Para analizar datos cualitativos, se suelen asignar números a
las características de las personas u objetos que se desean estudiar, sin embargo, estos números no implican cantidad,
simplemente son etiquetas asignadas a las categorías o modalidades de las variables que se están analizando.
• Variable cuantitativa: variable que puede ser expresada de forma numérica, y esos números representan cantidades.
• Variable cualitativa o categórica. Variable cuyos niveles son categorías o números que no indican cantidad, sino la
pertenencia a una modalidad.
• Variable continua. Variable cuantitativa que es producto de la medición y contiene cifras decimales.
• Variable discreta. Variable cuantitativa que es el resultado de conteos y solo asume valores enteros.
• Niveles de variables: los valores que puede asumir una variable (por ejemplo, sexo tiene dos niveles: hombre y mujer).
• Medida: la atribución de números a las modalidades o el establecimiento de niveles para las variables según ciertas
reglas. La atribución de números a los niveles no se va a realizar de forma arbitraria, sino siguiendo una regla general:
aceptar solo como relaciones válidas entre los números aquellas que sean verificables empíricamente entre las
correspondientes modalidades (es habitual asignar los valores 0 y 1 a los niveles de variables como el sexo, pero en
ningún caso 1 representa la superioridad sobre 0).
• Modelos de escalamiento o de construcción de escalas:modelos desarrollados para la medición que estudian las
condiciones de construcción de representaciones numéricas.
• Escalas: son el conjunto de modalidades (distintas) y el conjunto de números (distintos) relacionados de forma biunívoca
con las modalidades, es decir, a cada modalidad le corresponde un solo número y a cada número, una sola modalidad.

6
7

1.1. ESCALA NOMINAL

Consiste en clasificar en categorías a los sujetos u objetos que se desea medir, de modo que los sujetos clasificados en
determinada categoría sean iguales respecto a la propiedad que se está midiendo. En otras palabras, las observaciones
incluidas en la misma clase son consideradas como cualitativamente iguales y las que se incluyen en clases diferentes son
consideradas como cualitativamente diferentes, y se utiliza una clase por cada nivel de la variable que se está estudiando.
Las clases son mutuamente excluyentes y exhaustivas, es decir, cada observación es incluida en una, y solo una, clase y,
además, cada sujeto debe poder incluirse en algunade las categorías. El tipo de medición que cumple estas características se
llama categóricoo nominal (es el caso del sexo: (1) hombre, (0) mujer; estos números no indican cantidad, solo detallan
categoría).

1.2. ESCALA ORDINAL

Tipo de escala de medida que permite asignar a los sujetos u objetos medidos un número que posibilite ordenarlos
según la cantidad de variables que poseen. Además de poseer la relación de igualdad-desigualdad propia de la escala
nominal, los números asignados permiten afirmar que un elemento medido es mayor o menor que otro. En otras palabras, el
proceso de medición ordinal consiste en la aplicación de una regla de asignación de números a las diferentes cantidades,
pero de tal forma que los números asignados a los objetos reflejan los distintos grados en los que se presenta la
característica.Además la diferencia de grado entre medidas entre sujetos objetos es cuantificable lo que permite declarar la
mayor magnitud de uno u otro (medición de actitudes, rasgos, opiniones, etc).
Es evidente que la limitación de las escalas ordinales es que aunque nos informan de que un objeto representa la
característica en cuestión en una mayor magnitud que otro objeto, no nos dicen en cuánto más.

1.3. ESCALA DE INTERVALO

Tipo de escala de medida en la que, además de poder decirse que un sujeto objeto posee más omenos cantidad de
variable que otro, también es posible determinar la magnitud de las diferencias existente entre los elementos medidos, en
otras palabras, se puede conocer la cantidad de variable en la que difieren dos sujetos u objetos. En esta escala, se define
una unidad de medida y se asigna a cada elemento medido un número indicativo de la cantidad de variable que posee en
términos de la unidad de medida establecida.
La principal limitación de este tipo de escalas es que no tiene un 0 absoluto, es decir, el número 0 no representa
realmente la ausencia de esa característica. Un ejemplo de medida en este tipo de escala es el de la temperatura (cero grados
no es la ausencia de temperatura, ni frío, ni calor).

1.4. ESCALA DE RAZÓN

Tipo de escala de medida que añade a la de intervalo la presencia de un 0 absoluto, que indica la ausencia total de la
cantidad medida.El 0 pasa de ser un punto arbitrario de la escala a ser un punto fijo que indica que no existe cantidad
ninguna de variable. Al igual que en la escala de intervalo, las diferencias entre los objetos medidos son constantes
(existiendo una unidad de medida), pero, además, la presencia del 0 absoluto permite afirmar que un objeto posee el doble o
el triple de cantidad que otro. La velocidad es un ejemplo típico de este tipo de escalas.

2. DEFINICIÓN DE TÉRMINOS ESTADÍSTICOS BÁSICOS

2.1. POBLACIÓN Y MUESTRA

• Población: grupo que comparte una característica determinada de interés. Es el universo de objetos o sujetos que serán
estudiados; además, puede ser finita o infinita.
7
8

. Muestra: conjunto de unidades o elementos de análisis que se seleccionan de la población para llevar a cabo el análisis
estadístico. El objetivo fundamental de un análisis estadístico es describir (estadística descriptiva) o generalizar (estadística
inferencial) los comportamientos de una población de interés mediante lo que se puede encontrar en la muestra. Lo más
importante para caracterizar, inferir o extraer conclusiones es que las muestras sean representativas.

3. INTRODUCCIÓN AL MUESTREO

• Muestreo aleatorio simple. Tipo de muestreo en el que se selecciona una muestra de tamaño n de una población de N
unidades, donde cada elemento tiene una probabilidad de inclusión igual y conocida.Los elementos se seleccionan uno a
uno con reposición; en otras palabras, la población permanece idéntica en todas las extracciones. Para elegir una muestra
aleatoria simple de una población finita, se suelen utilizar los números aleatorios.
• Muestreo sistemático: cuando los elementos de la población están ordenados en listas.Tipo de muestreo en el que
teniendo N elementos se muestrean n, eligiéndolos mediante un intervalo fijo k.
• Fracción de muestreo: es el cociente entre el tamaño muestral y la población (n/N)
• Factor de elevación: es el inverso de la fracción de muestreo, es decir, el cociente entre el tamaño de la población y el de
la muestra (N/n). Para realizar un muestreo sistemático se selecciona un elemento al azar entre el primero y el que ocupa
un lugar en la lista igual al factor de elevación.Luego se completa la muestra sumando este valor al anterior seleccionado
y así sucesivamente.
• Muestreo aleatorio estratificado:se utiliza cuando los elementos de la población no son homogéneos. Tipo de muestreo
en el que se pretende asegurar la representatividad de subgrupos dentro de la muestra. La muestra se toma de manera que
tenga una composición análoga a la población. La muestra se selecciona asignando mediante algún criterio un número de
miembros a cada estrato y se eligen después por muestreo aleatorio simple los elementos que forman la muestra dentro de
cada estrato.
• Muestreo por conglomerados:Cuando no se dispone de un listado con los elementos que componen la población o de
los posibles estratos, no es posible realizar los procedimientos anteriormente descritos. Así el muestreo por
conglomerados es un tipo de muestreo en el cual se seleccionan unidades amplias en las que se dividen y clasifican los
elementos de la población (conglomerado). En cada etapa del muestreo, en lugar de seleccionar individuos, se seleccionan
conglomerados.
Los conglomerados deben ser heterogéneos, porque si solo se analizan algunos de ellos (dejando fuera alguno que
sea importante), la muestra final puede no ser representativa de la población.Los estratos deben ser internamente tan
homogéneos como sea posible y tan diferentes entre sí como se pueda, mientras que, por el contrario, los conglomerados
deben ser tan heterogéneos internamente como lo sea la población y tan homogéneos entre sí como sea posible.
• Muestreo polietápico o mixto:cuando las características de la población son muy complejas se utiliza la
combinación de estrato y conglomerado. Así el muestreo polietápicoes aquel en el que, en un primer momento, se
seleccionan como unidades los conglomerados y, luego, se estratifican. La muestra se toma, entonces, en tres etapas:
a. Se selecciona una muestra estratificada de unidades primarias (en el caso de estudio del turismo en España, la unidad
primaria puede ser la comunidad autónoma), y se toman varias unidades primarias dentro de cada estrato.
b. Se eligen por muestreo aleatorio simple varias unidades secundarias (pueblos, ciudades o barrios dentro de la
comunidad) dentro de las unidades primarias.
c. Se seleccionan por azar una o varias unidades finales en cada unidad secundaria (por ejemplo, hoteles).

• Muestreo por cuotas.Cuando no es posible realizar la estratificación o esta resulta muy costosa,el muestreo por cuotas se
utiliza si se dispone de información sobre la proporción de cada nivel de la variable de la población, y dicha proporción se
fija en las llamadas cuotas.

4. PARÁMETROS Y ESTADÍSTICOS

• Población. Grupo que comparte una característica determinada de interés, es el universo de objetos o sujetos que serán
estudiados.
8
9

• Parámetro. Propiedad descriptiva de una población. Se representa con letras griegas.


• Estadístico: propiedad descriptiva de una muestra. Se representa con letras latinas.

=
= VD
=VI
Las variables cuantitativas vienen representadas por números.
Variables discretas ni
ni
Variables continuas 1 5
0-50 5
2 7
50-100
3 3 7
100-150 3
4 1
150-200 1

Las variables cualitativas (=categoría) vienen representadas por una cualidad


ni

1 Solteros 5
2 Casados 7
3 Viudos 3
Escalas 4 Divorciados 1 Hombres
1. ESCALA NOMINAL cualitativa(mutuamente excluyentes y exhaustivas) sexo
2. ESCALA ORDINAL cuantitativa.Miden actitudes, personalidad, rasgos, Mujeres
opiniones. Por ejemplo, los niveles de concentración.
3. ESCALA DE INTERVALO cuantitativa. Mide lo mismo que la ordinal, pero además mide cuanto por encima y
por debajo (con números). Puede tener valores negativos. No tiene 0 absoluto. -2 -1 0 1 2
4. ESCALA DE RAZÓN cuantitativa. Parto de cero. Tiene 0 absoluto. Es igual que la de intervalo, pero partiendo
de 0.

= media muestral→estadísticos: s2varianza muestralμ=media


poblacional→parámetro: σ varianza poblacional

5. REPASO DE CONCEPTOS MATEMÁTICOS


BÁSICOS

Un símbolo estadístico que utilizaremos a lo largo del manual es la sumatoria (∑).Dicho símbolo implica que los valores que
están en el recorrido de la sumatoria se deben sumar. Por ejemplo, ∑3i=1 xi significa que se deben sumar los 3 primeros
elementos del conjunto de datosrepresentados por xi, si xi = [2,8,5,3,6,1,4], entonces ∑3i=1 = 2 + 8 + 5 = 15; pero si el
sumatorio es ∑5i=2 xi, indica que debemos sumar los valores 8, 5, 3 y 6, es decir, del segundo al quinto, por lo que ∑5i=2 =
8 + 5 + 3 + 6 = 22.
También utilizaremos la productoria (∏ x), que implica que los valores que están en el recorrido se deben multiplicar. Por
ejemplo, ∏3i=1 xi significa que se deben multiplicar los 3 primeros elementos del conjunto de datos; con el mismo conjunto
de datos anterior, ∏3i=1 = (2) (8) (5) = 80.

9
10

3. Organización de datos
1.PROPORCIONALIDAD: FRACCIÓN, PROPORCIÓN YPORCENTAJE

• Proporcionalidad: comparación de una parte con un todo, que generalmente implica la división de la parte (numerador)
entre el todo (denominador). Para calcular una proporción, se realiza una fracción que determina qué parte del todo
constituye una categoría de observaciones.
• Proporción: parte de la cantidad total expresada en forma decimal. Dicho cociente siempre asumirá un valor entre 0 y 1.
• Porcentaje: proporción multiplicada por 100. El porcentaje siempre es un valor entre 0 y 100.

2. ORGANIZACIÓN DE LOS DATOS Y DISTRIBUCIÓN DE FRECUENCIAS


2.1. DISTRIBUCIÓN DE FRECUENCIAS
• Distribución de frecuencias: organización de los datos en tablas que nos permite:
Organizar y describir los datos de forma racional y directa.
Obtener información necesaria para hacer representaciones gráficas.
Resumir la información para facilitar los cálculos de los estadísticos muéstrales.
• Frecuencia absoluta o ni:corresponde al número de veces que se repite el valor xi en la muestra
• Frecuencia relativa o fi:corresponde al cociente entre la frecuencia absoluta de cada valor y el tamaño de la muestra, es
decir, fi=ni/n, en otras palabras, la frecuencia relativa equivale a la proporción, y por lo tanto asume valores entre 0 y 1.
• Frecuencia absoluta acumulada o Ni: Corresponde al número de veces que se repite en la muestra ese valor xi o
cualquier otro valor inferior. Su valor máximo es n o el número total de datos que se tienen.
• Frecuencia relativa acumulada o Fi. Corresponde al cociente entre su frecuencia absoluta acumulada y el tamaño de la
muestra, esto es, Fi =Ni/n, y cuyo valor máximo es 1.
Los elementos acumulados (tanto la frecuencia absoluta acumulada como la relativa acumulada) no son posibles en
variables cualitativas; su definición solo puede aplicarse a variables en las que los números empleados para representar las
modalidades implican magnitudes, mientras que no pueden aplicarse cuando esos números son etiquetas de las
modalidades. En una tabla con datos cuantitativos a continuación de estos valores de la variable, aparecen los cuatro
elementos que acabamos de definir, mientras que si se trata de una variable cualitativa o nominal, solo aparecerán los dos
primeros (la frecuencia absoluta de un valor y la frecuencia relativa de dicho valor). Ejemplo en el libro página 51 y
siguientes.

2.2. DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS EN INTERVALOS

Cuando el número de valores observados distintos es muy grande y distribuirlos en una tabla resulta demasiado
largo, para evitarlo, se agrupan los datos en conjuntos, llamados intervalos o clases, dando lugar a una tabla de
frecuencias agrupadas.La facilidad de comprensión que brinda una tabla de frecuencias agrupadas se logra a costa de
perder cierta información, como, por ejemplo, el detalle de las frecuencias dentro de cada intervalo. El punto clave para
construir una tabla de frecuencias agrupadas es definir de qué modo se agruparán los valores individuales, es decir, la
serie de valores a incluir en cada intervalo. No deben existir brechas entre los intervalos, porque lo que nos interesa es
incluir todos los valores de la tabla de frecuencias. Tampoco deben superponerse unos valores con otros, porque no
sabríamos en qué intervalo incluir algunas observaciones. Asimismo, es muy importante que todos los intervalos tengan
la misma longitud, es decir, que incluyan igual cantidad de valores. De ese modo, cuando se compare la cantidad de
observaciones de dos intervalos diferentes, se estarán comparando dos elementos de igual tamaño.
Al decidir la longitud de los intervalos, se deben considerar tres principios fundamentales: en primer lugar, es
deseable tener entre 5 y 15 intervalos. En segundo lugar, es importante que el tamaño del intervalo o la cantidad de
valores que incluye sea un número con el que resulte fácil trabajar. Se considera que 2, 3, 5, 10 o múltiplos de 5 o de 10
son tamaños adecuados de intervalo. También es útil que los límites del intervalo (los números con los que los intervalos
10
11

comienzan y terminan) se establezcan de forma tal que el límite inferior de cada intervalo sea múltiplo exacto del tamaño
del intervalo. En tercer lugar, con respecto al límite superior de los intervalos, generalmente utilizamos el valor real más
alto que pueda tener la variable y que sea inmediatamente inferior al comienzo del siguiente intervalo. En otros casos, los
investigadores pueden colocar como límite superior de sus intervalos un número decimal apenas menor al límite inferior
del siguiente intervalo.
A continuación, se describen cuatro pasos a seguir para construir una tabla de frecuencias agrupadas que cumpla
con los principios estudiados:
• Restar el valor menor al mayor, para obtener la amplitud de la serie de valores.
• Dividir la amplitud por el número de intervalos que se pretenden configurar y ajustarlo a un tamaño de intervalo
razonable (redondear si es necesario).
• Realizar una lista de los intervalos de menor a mayor, controlando que el límite inferior de cada intervalo sea
múltiplo exacto del tamaño del intervalo.
• Realizar el conteo de las frecuencias que corresponden a cada intervalo.
Ejemplo en el libro, página 54 y siguientes.

3. CUANTILES

Medidas posicionales que nos sirven para hacer valoraciones relativas de la posición de un dato o de un individuo
en una variable. Son estadísticos diseñados especialmente para revelar la situación de una puntuación con respecto a un
grupo, utilizando este como marco de referencia.
• Percentiles: son 99 valores de la variable que dividen la distribución en 100 secciones, cada una contiene una centésima
parte de las observaciones. Un percentil se interpreta como el porcentaje de casos que caen o están por debajo de un valor
específico de x, así, por ejemplo, se simboliza mediante P28 a la puntuación que deja por debajo de sí al 28% de las
observaciones y que es superada por el 72%. Si disponemos de esos 99 valores, podremos hacer valoraciones relativas de
las puntuaciones individuales. Por ejemplo, si un individuo obtiene la puntuación 35 y sabemos que P90 = 35, quiere
decir que la puntuación de ese sujeto coincide con la del percentil 90 y, por tanto, supera al 90% de las observaciones del
grupo de referencia, mientras que es superada solamente por el 10%, entonces se trata de un examinado con un nivel de
ejecución alto.
• Cuartiles: cuantiles que dividen una distribución en 4 grupos de igual tamaño, es decir, 25 % de los casos en cada grupo.
Cuando una distribución tiene un amplio rango de puntuaciones, los cuartiles se obtienen con facilidad a partir de las
distribuciones de frecuencias acumuladas que incluyen los porcentajes acumulados. El primer cuartil (Q1) corresponde al
P25, el segundo cuartil (Q2) corresponde al P50, el tercer cuartil (Q3) corresponde al P75, el cuarto es el valor mayor de
la distribución por debajo del cual está el 100% de las observaciones.
• Deciles: son 9 valores de la variable que divide la distribución en 10 partes iguales. Cada parte es 1/10 o un 10 % de la
totalidad.

Los pasos para calcular los percentiles (en una distribución de frecuencias no agrupadas en intervalos) son:
• Ordenar las puntuaciones.
• Calcular la proporción y porcentaje de casos con puntuaciones iguales o menores que el caso de interés.
• Indicar el percentil en puntuaciones enteras.
• Recordar que los percentiles se obtienen fácilmente de una distribución de porcentajes acumulada.
Ejemplo en el libro página 57 y siguientes.

3.4. CÁLCULO DE CUANTILES EN UNA DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS

Para calcular los percentiles en una distribución de frecuencias agrupadas en intervalos, es necesario realizar los siguientes
pasos:
• Calcular las frecuencias acumuladas Ni.
• Calcular kn/100, donde k es el percentil que se quiere calcular.
• Determinar el límite inferior del intervalo donde se encuentra la frecuencia acumulada superior a kn/100.

11
12

• Aplicar la siguiente fórmula:


Pk= Li + ( I/ni) (Kn/100 - na)
Donde:
Li = El límite inferior del intervalo donde se encuentra la frecuenciaacumulada kn/100.
I = La amplitud del intervalo donde se encuentra la frecuencia acumuladakn/100.
ni = La frecuencia absoluta del intervalo donde se encuentra la frecuencia acumulada kn/100.
na = La frecuencia acumulada anterior al intervalo donde se encuentra la frecuencia acumulada kn/100.
k = El percentil buscado.
n = El número total de datos.

Para calcular los deciles, se siguen los mismos pasos, pero en lugar de dividir entre 100 se divide entre 10, y Para calcular
los cuartiles, se siguen los mismos pasos, pero en lugar de dividir entre 100 se divide entre 4. Ver ejemplo en la página 59.

∑ni =n

∑ fi xi ni fi Ni Fi
0 3 3/20=0’15 3 0,15
N=150n 1 6 6/20=0,3 9 0,45
2 7 7/20=0,35 16 0,8
=20
3 3 3/20=0,15 19 0.95
Moaquel valor de la 4 1 1/20=0,05 20 1 variable que tiene la frecuencia más alta.
Meaquel valor de la 20 = n 1 variable donde está la mitad de la distribución

Me voy a la frecuencia acumulada. Si está entre dos valores,


elijo por exceso. En la tabla 10 cae
entre 9 y 16. Elijo el 16, que corresponde al valor x i 2. Por lo que Me=2.

Supongamos , por lo que cae exactamente en un valor de la frecuencia acumulada 

ORDENADAS
ni (frecuencia)

ABCISAS
xi (variables )

12
13

q1, q2, q3
Cuartiles
q2=Med

d1, d5, d9
Cuantiles Deciles
d5= q2=Med

P1, P50, P90


Percentiles
P50= q2= d5

q1=1n/4 q2=2n/4=n/2 q3=3n/4


d5=5n/10
P24=24n/100

4. Representaciones gráficas de las


distribuciones de frecuencias
1. REPRESENTACIONES GRÁFICAS

• Diagrama de barras: representación gráfica de una distribución de frecuencias que se puede emplear tanto con variables
nominales como con variables cuantitativas discretas.En el eje de abscisas se sitúan las modalidades (o los números que
las representan) y en el eje de ordenadas, las frecuencias (que pueden ser absolutas o relativas y si es una variable
cuantitativa, también pueden ser acumuladas). Sobre cada valor de la variable, se levanta una barra perpendicular cuya
altura debe ser igual a la frecuencia. Además, la suma de las longitudes de las barras debe ser igual a 1 si las frecuencias
representadas son relativas o a n si las frecuencias representadas son absolutas.
• Histograma: representación gráfica de una distribución de frecuencias de una variable continua en el caso de que los
datos estén agrupados en intervalos. En el eje de abscisas, se ponen los límites exactos de los intervalos y en el eje de
ordenadas, las frecuencias. Sobre cada intervalo, se levanta un rectángulo cuya área sea igual a la frecuencia. Si la base
del rectángulo es la amplitud del intervalo, la altura es el cociente entre el área y la amplitud (recuerde que el área de un
rectángulo es igual a la base por la altura).
• Polígono de frecuencias: representación gráfica que resulta de unir los extremos superiores de las barras en el caso del
diagrama de barras o de unir los puntos medios de las bases superiores de los rectángulos en el caso del histograma.
• Polígono de frecuencias acumuladas: representación gráfica de una distribución de frecuencias acumuladas para una
variable continua. En el eje X, se representan los límites inferiores de los intervalos; se suele añadir un intervalo inferior
cuya frecuencia será nula. En el eje Y, se ponen las frecuencias acumuladas, absolutas o relativas. Sobre cada límite, se
levanta una línea cuya longitud debe ser igual a la frecuencia acumulada y se unen los extremos de dichas líneas. En el eje
Y, también se suelen representar los porcentajes. Dicha representación suele ser muy apropiada, pues nos permite conocer
directamente qué porcentaje de casos se encuentra por debajo de dicho valor, constituyendo una representación gráfica de
los percentiles.
• Diagrama de pastel: representación gráfica que se utiliza en variables cualitativas. Es una representación en forma de
círculo en la que éste es dividido en secciones cuya superficie es proporcional a la frecuencia de la modalidad
correspondiente.

13
14

3. PROPIEDADES Y FORMA DE LAS DISTRIBUCIONES DE FRECUENCIAS


3.1. DISTRIBUCIONES DE FRECUENCIAS UNIMODALES, BIMODALES Y MULTIMODALES

Un aspecto importante relacionado con la forma de una distribución de frecuencias es el hecho de que su figura presente
un solo punto máximo principal (una barra alta en el histograma o un «pico» alto principal en el polígono de
frecuencias).Este tipo de distribuciones se llama unimodal. Una distribución con dos puntos elevados prácticamente
iguales es una distribución bimodal. Cualquier distribución con dos o más puntos elevados se denomina multimodal
(estrictamente hablando, una distribución bimodal o multimodal presenta dos o más picos exactamente igual de altos,
pero es común en la práctica utilizar estos términos más informalmente para describir la forma general).

3.2. DISTRIBUCIONES DE FRECUENCIAS SIMÉTRICAS Y ASIMÉTRICAS

• Sesgo o asimetría: propiedad de la distribución de frecuencias que se refiere a su grado de simetría o asimetría. se refiere
al grado de «inclinación» de la distribución. Si hay muchas frecuencias en los valores altos de la variable y pocas en los
valores bajos, se dice que la distribución es asimétrica negativa. Por el contrario, si hay muchas frecuencias en los va-
lores bajos de la variable y pocas en los altos, se dice que la distribución es asimétrica positiva. En este caso, la cola la
encontramos a la derecha, donde hay pocos valores, y la punta se encontrará a la izquierda. Cuando se toman muchos
datos, la mayoría de las distribuciones tienden a ser simétricas (si las dobláramos por la mitad, las dos mitades serían
iguales).

3.3. DISTRIBUCIONES DE FRECUENCIAS NORMALES Y CÚRTICAS


• Curtosis: propiedad de la distribución de frecuencias que se refiere a su grado de apuntamiento,, el término curtosis
proviene de la palabra griega kyrtos, que significa ‘curva’, y se refiere al grado en el que la forma de una distribución
difiere de la curva normal, principalmente con respecto al hecho de que las colas sean más espesas o delgadas que las de
la curva normal. Además de la diferencia en el espesor de las colas con respecto a la curva normal, las distribuciones con
colas espesas son más empinadas que la curva normal y aquellas con colas más delgadas o sin colas, por lo general, son
más chatas que la curva normal.
• Leptocúrtica: Distribución con forma muy apuntada.
• Platicúrtica: Distribución con forma muy aplanada.
• Mesocúrtica: Distribución con curtosis nula.

3.4. OTRAS PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS

• Tendencia central: es un valor de la variable situado hacia el centro de la distribución de frecuencias que también es
llamado promedio o medida de posición porque sintetiza o resume los valores de la variable.
• Variabilidad o dispersión: es una medida del grado de concentración de las observaciones en torno al valor central o
promedio. En una distribución de frecuencias homogénea, los datos diferirán poco entre sí y se agruparán en torno al
promedio; por el contrario, si la distribución es heterogénea, los datos se dispersarán con respecto al promedio.

14
15

DIAGRAMA DE
BARRAS.

En las

ordenadas se coloca fi o ni.


Variables nominales
Variables cuantitativas discretas

HISTOGRAMA o diagrama de columnas.La altura de cada columna es la frecuencia entre la amplitud


del intervalo.
Variable cuantitativa continuaagrupada en intervalo.

15
16

PO
LIG
ONO
DE

FRECUENCIAS

POLIGONO DE FRECUENCIAS ACUMULADAS

DIAGRAMA DE PASTEL. Variables cualitativas.

COEFICIENTE DE
2 CURTOSIS.
g =0 simética COEFICIENTE
g2=0 normalDE ASIMETRÍA.
<0 asimetría positiva
g1>0asimetría negativa gg2<0
>0 menos
 más apuntada
apuntada
1

16
17

Cuando la distribución de los datos cuenta con coeficientes de asimetría y de curtosis cercanos a 0 (entre 0 y 0,5), se la
denomina curva normal. Este criterio es de suma importancia, ya que para la mayoría de los procedimientos de la
estadística de inferencia se requiere que los datos se distribuyan normalmente.

5. Medidas de tendencia Central


• Medidas de tendencia central. Medidas que resumen, concentran o centralizan la información de los datos en un número
que los representa lo mejor posible.

• Media aritmética o promedio.


Suma de los datos dividida por el número de datos. En estadística, ese promedio se conoce con el nombre de media. Con
frecuencia, se dice que el promedio o media de un grupo de registros o datos, muestra la tendencia central o el valor típico
o representativo de un grupo de observaciones, aunque existen otras formas para describirla.

A las puntuaciones u observaciones queno son más que los valores brutos, las denominaremos puntuaciones directas. Por el
contrario, a las diferencias de cada sujeto con respecto a la media grupal las denominaremos puntuaciones diferenciales.
Estas últimas son las que vamos a utilizar para definir las propiedades de la media aritmética y se simbolizan como
(la puntuación directa menos la media del grupo).

Las propiedades de la media son las siguientes:


1. La suma de las diferencias de n valores de la variable con respecto a su media es igual a 0:

La razón por la que la suma de las diferencias es igual a 0 es que unas son positivas y otras, negativas (las que superan la
media y las que quedan por debajo de ella, respectivamente), y se compensan unas con otras. Esto no sucedería si
tomásemos esas diferencias en valor absoluto o si las elevásemos al cuadrado.
2. La suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su media es menor que con
respecto a cualquier otro valor. Es decir:

Siendo c cualquier valor diferente a la media aritmética.

3. Si sumamos una constante a un conjunto de puntuaciones, la media aritmética quedará aumentada en esa misma
constante, es decir, si yi = xi + k, entonces y = x + k.

4. Las puntuaciones no solo pueden transformarse sumando constantes, también pueden transformarse multiplicando
constantes. Si multiplicamos un conjunto de puntuaciones u observaciones por una constante k, la media aritmética
quedará multiplicada por dicha constante, es decir, si yi = xi × k, entonces y = x × k.

17
18

5. Ponderación de la media. Cuando se tienen subgrupos de observaciones, exhaustivos y mutuamente excluyentes, y


se conocen sus tamaños y medias, la media total puede obtenerse ponderando las medias parciales a partir de los
tamaños de los subgrupos en que han sido calculadas (esta medida se llama media ponderada):

6. Una variable definida como la combinación lineal de otras variables tiene como media la misma combinación lineal
de las medias de las variables que intervienen en su definición, es decir, si:

• Mediana
Valor que tiene la propiedad de que el número de observaciones menores a él es igual al número de observaciones mayores
a él. La puntuación que es superada por la mitad de las observaciones, pero no por la otra mitad; en otras palabras, la
puntuación que divide exactamente por la mitad a la muestra estudiada.
Para su cálculo, podemos encontrarnos con dos casos generales, aquel en el que contamos con un número impar de
observaciones y aquel en que nos encontramos con un número par de ellas. En el primero, se toma como mediana el valor
central; en el segundo, se da la circunstancia de que cualquier valor comprendido entre los dos centrales cumple con la
definición de mediana. Por ello, Fechner propuso tomar la media aritmética de los dos valores centrales.
Se suele representar por Mdn.

• Moda.
Valor más frecuentemente observado. La moda, Mo, se define sencillamente como el valor de la variable con mayor
frecuencia absoluta. Valor de la variable al que corresponde la mayor frecuencia.
Cuando hay dos valores con igual (y más alta) frecuencia, se dice que la distribución es bimodal, si fuera uno, unimodal.
Si hay tres o más, multimodal.

NO HAY MODA SI:


xi ni
1 2
2 2
3 2
4 2
5 2

 MEDIA ARITMÉTICA EN UNA DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS


Cuando los datos están agrupados en intervalos de amplitud (I), se supone que dentro de los intervalos los valores
están concentrados en el punto medio del intervalo (Xi), también llamado marca de clase, entonces la media aritmética
está dada por la expresión:

18
19

Para obtener la media aritmética, se realizan los siguientes pasos:


• Se obtienen las marcas de clase (puntos medios) de los intervalos (Xi).
• Se multiplica la frecuencia de cada intervalo (ni) por su marca de clase respectiva.
• Se suman los productos (Xi)(ni ).
• Se divide la suma anterior entre el total de datos (n).

 MEDIANA EN UNA DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS

Los pasos para calcular la mediana en una distribución de frecuencias agrupadas son:
• Calcular las frecuencias acumuladas.
• Calcular n/2.
• Determinar el límite inferior del intervalo donde se encuentra la mediana (es decir, la frecuencia acumulada
inmediatamente superior a n/2).
• Determinar la frecuencia absoluta de dicho intervalo.
• Determinar la frecuencia acumulada en el intervalo inmediatamente anterior.
• Aplicar la siguiente fórmula:

Donde:
Li = El límite inferior del intervalo donde se encuentra la frecuencia acumulada n/2.
I = La amplitud del intervalo donde se encuentra la frecuencia acumulada n/2.
ni = La frecuencia absoluta del intervalo donde se encuentra la frecuencia acumulada n/2.
na = La frecuencia acumulada anterior al intervalo donde se encuentra la frecuencia acumulada n/2.
k = El percentil buscado.
n = El número total de datos.

Ejemplo página 102 manual.

 MODA EN UNA DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS

La moda en una distribución de frecuencias agrupadas es la marca de clase del intervalo con mayor frecuencia; pero
cuando la distribución es muy asimétrica, es necesario utilizar la siguiente fórmula:

Donde:
d1 = La diferencia de frecuencias entre la correspondiente al intervalo modal y la del intervalo inmediatamente anterior.
d2 = La diferencia de frecuencias entre la correspondiente al intervalo modal y la del intervalo inmediatamente superior.
I = La amplitud del intervalo modal.
Li = El límite inferior del intervalo modal.

Ejemplo página 104 manual.

19
20

 CUÁNDO USAR CADA UNA DE LAS MEDIDAS DE TENDENCIA CENTRAL

Las medias son estadísticos apropiados para describir la tendencia central de variables cuantitativas medidas en escalas
de intervalo o razón, sin embargo no son apropiadas para utilizar en variables cualitativas o medidas en escala nominal y
ordinal.Cuando el nivel de medida es ordinal, es más adecuado utilizar la mediana; mientras que la moda es un
estadístico apropiado para variables nominales, puesto que su cálculo depende de la frecuencia y no involucra los valores
ni el orden de los mismos.
En el caso de las variables medidas en intervalo o razón, se puede aplicar cualquiera de las tres medidas de tendencia
central, sin embargo, cuando se puede elegir, es mejor utilizar la media aritmética, porque es la medida utilizada con
mayor frecuencia y, además, es la base de otros estadísticos. Cuando hay valores muy extremos, la media aritmética es
inestable, por lo que es preferible utilizar la mediana. Esta última también es apropiada cuando alguno de los intervalos
extremos esté abierto y, por tanto, se desconozca el punto medio. Cuando los datos son ordinales, siempre hay que
utilizar la mediana en lugar de la media. Cuando los datos son nominales, la única medida de tendencia central utilizable
es la moda.
Cuando una distribución es perfectamente simétrica, coinciden la media, la mediana y la moda.

MEDIA ARITMÉTICA: =∑xini/n Propiedades:


xi ni 1. La suma de las diferencias de n valores de la variable con
=1.1+3.2+6.1+7.2+8.3+9.1=6 respecto a su media es igual a 0. ∑xi- =0
1 1
3 2 10 2. La suma de los cuadrados de las desviaciones de unas
6 1 puntuaciones con respecto a su media es menor que con respecto
7 2 a cualquier otro valor. ∑(xi- )2<∑(xi-c)2. Las distancias a la 2 son
8 3 siempre las más pequeñas que si cogemos cualquier otro punto
9 1 (c).
3. Si sumamos una constante a un conjunto de puntuaciones, la
10
media aritmética quedara aumentada en esa misma constante, es
decir, si yi = xi + k, entones = + k. la media de una
transformada lineal es lo que es variable se pone media, y lo que
es constante se queda igual.
4. Si multiplicamos un conjunto de puntuaciones por por una
constante k, la media aritmética queda multiplicada por la
constante. yi = xi . k, entones = . k.
5. Ponderación de la media. Para cuando hay diferentes tamaños de
muestra.
6. Una variable definida como la combinación lineal de otras
variables tiene como media la misma combinación lineal de las
medias de las variables que
intervienen en su definición.
SI: ti=avi+bxi+……+kzi
ENTONCES:

20
21

MEDIANA. La mitad de la distribución.


xi ni Ni
Otra opción: 1, 3, 3, 6, 7, 7, 8, 8, 8, 9 los valores centrales son la mediana. n/2=10/2=5
1 1 1
3 2 3
mdn=7
6 1 4
7 2 6
8 3 9
9 1 10
10 MODA. El valor que más se repite.
1 . Mo=8 2. Mo=7 bimodal 3. Mo=1Trimodal 4. No hay moda.
Mo=8 Mo=7
Mo=8

xi ni xi ni xi ni xi ni

1 1 1 1 1 2
3 2 3 1 1 3 3 2
6 1 6 1 3 1 6 2
7 2 7 4 6 1 7 2
8 3 8 4 7 3 8 2
9 1 9 1 8 3 9 2
9 1

MODA PARA DATOS AGRUPADOS EN INTERVALOS.


Para localizar el intervalo modal tenernos que hacer lo mismo que en discretas, localizar la frecuencia más alta.
Mo=Li+ d1.I d1+d2
d1=ni-ni-1La frecuencia del intervalo menos el anterior d2=ni-ni+1 La
frecuencia del intervalo menos la siguiente.

 Media ( ):
Variables cuantitativas intervalo o razón
NO variables cualitativas o escala nominal y ordinal.
 Mediana (Mdn): Ordinales
 Moda (Mo): variables nominales.
Cuando tenemos valores extremos de las variables no se una la media, se usa la mediana.

6. Medidas de dispersión o variabilidad.


 Variabilidad. Grado en el que los datos se parecen o diferencia entre sí. También grado en el que los datos se dispersan
alrededor de la medida de tendencia central.
 Medidas de dispersión. Medidas que miden el grado de variabilidad de los datos con respecto a su tendencia central.
 Varianza. Es el promedio de las desviaciones cuadráticas de los datos con respecto a la media y se representa por la
expresión s2xdonde el subíndice recoge la letra x con la que se representa la variable. La fórmula para calcularla se reduce,
por tanto, a hallar el promedio de las desviaciones cuadráticas con respecto a la media:

21
22

Cuando se quiere describir el grado de variabilidad de un grupo de valores, basta con obtener este índice. Así, en el ejemplo
anterior, los valores del primer grupo eran 4, 3, 2, 1, 0 y su media aritmética era igual a 2. Las distancias con respecto a la
media eran 2, 1, 0, – 1 y – 2. El promedio de los cuadrados de estas cantidades es la varianza de las observaciones:

No tiene sentido comparar varianzas halladas sobre variables distintas. La varianza sirve para comparar el grado de
dispersión existente entre dos o más conjuntos de datos asociados a una misma variable (diferencias en la altura entre
hombres y diferencias en la altura entre mujeres).
La obtención de la varianza de unas observaciones puede a veces facilitarse bastante si se utiliza una segunda fórmula que
vamos a describir a continuación:

Es decir, la varianza es también igual a la media de las observaciones elevadas al cuadrado menos el cuadrado de la media.
Esta fórmula resulta útil en ciertos casos, por ejemplo, si la media es un valor decimal, entonces las diferencias también lo
serían y la obtención de los cuadrados resultaría una tarea engorrosa y en la que sería fácil cometer errores.

 Cuasi-varianza. Es la varianza calculada de una forma ligeramente distinta, dividiendo entre n - 1 en lugar de dividir por
n. Se representa como s2x(n-1). Como las fórmulas de la varianza y cuasivarianza comparten el mismo numerador, la
relación entre ellas es inmediata:

 Desviación típica. Es la raíz cuadrada de la varianza. Se utiliza porque a veces el valor de la varianza puede no estar
relacionado con los valores absolutos de las frecuencias (rangos de valores entre 0 y 4 con una varianza de 0,2). Esto
sucede porque la varianza trabaja con valorescuadráticos. Haciendo la raíz cuadrada, se vuelve a rangos similares a las
frecuencias de partida. La desviación típica se representa por sx

La variabilidad de los datos está reflejando el hecho incuestionable de las diferencias individuales y este es uno de los
objetos de estudio primordiales de las ciencias del comportamiento humano.
Ya vimos en la Unidad didáctica 5 que en algunos casos la media no es el índice más apropiado para representar la
tendencia central: hay veces en que algún dato extremo distorsionaría su interpretación; otras veces, la variable puede
estar medida en una escala ordinal o nominal y no se puede calcular. En cualquiera de estos casos, tampoco deben
utilizarse índices que se basen en la media, como la varianza y la desviación típica.

PROPIEDADES DE LA VARIANZA Y DE LA DESVIACIÓN TÍPICA

22
23

1. Tanto la varianza como la desviación típica son valores esencialmente positivos.


2. La varianza y la desviación típica no se ven alteradas cuando a los datos se les suma una constante.
3. Si los datos de una variable se multiplican por una constante, la desviación típica queda multiplicada por el valor
absoluto de dicha constante y la varianza, por el cuadrado de dicha constante.
4. Si tenemos k subgrupos con tamaños n 1, n2, ..., nk, con medias x1, x2, ..., xk y varianzas s21, s22, ..., s2k, entonces, la
varianza del grupo total es igual a la media ponderada de las varianzas parciales, esto es:

5. El hecho de que la desviación típica sea un índice de variación de los datos y, por tanto, pueda tomarse como
medida interna de las distancias entre las observaciones y la media hace que exista una relación muy estrecha entre
esas distancias y las observaciones en función de su distancia hasta la media. Esta relación se conoce con el nombre
de desigualdad de Tchebyshev. Dicha distancia recoge el hecho de que las distancias menores hasta la media son
más frecuentes que las distancias mayores. Así, entre las puntuaciones correspondientes a la media ± una
desviación típica, se encontrarán menos observaciones que entre las puntuaciones correspondientes a la media ±
una desviación típica y media y, a su vez, entre estas habrá menos que entre las correspondientes a la media ± dos
desviaciones típicas. Según la desigualdad de Tchebyshev, el porcentaje de puntuaciones que quedan entre las
correspondientes a la media ± k desviaciones típicas es, como mínimo, el 1 – (1/k 2) × 100 de las observaciones.

Ejemplos de las propiedades en la página 123-124.

VARIANZA Y DESVIACIÓN TÍPICA EN UNA DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS

Cuando los datos están agrupados en intervalos de amplitud I, se supone que dentro de los intervalos los valores están
concentrados en el punto medio del intervalo (Xi ), también llamado marca de clase, entonces la varianza se calcula de la
siguiente forma:

Para obtener la media aritmética, se realizan los siguientes pasos:


• Obtener las marcas de clase (puntos medios) de los intervalos (X i ).
• Restar la media a cada una de las marcas de clase X i – X .
• Elevar las diferencias al cuadrado (Xi – X )2.
• Multiplicarlas por la frecuencia del intervalo n i .
• Sumar los productos anteriores.
• Dividir esta suma entre n.
Ejemplo en la página 124-125.

FÓRMULA ABREVIADA PARA EL CÁLCULO DE LA VARIANZA Y DESVIACIÓN ESTÁNDAR EN


FRECUENCIAS AGRUPADAS
Como es frecuente que la media presente decimales o las marcas de clase y las frecuencias presenten valores elevados, el
procedimiento anteriormente presentado puede resultar muy largo y engorroso. Podemos evitar algunos pasos del anterior
procedimiento realizando la siguiente operación abreviada:

23
24

En dicha fórmula se calculan primero los cuadrados de las marcas de clase, se multiplican por la frecuencia, se suman esos
productos y se dividen por n. A esta cantidad se le resta el cuadrado de la media aritmética.

INTERPRETACIÓN DE LA VARIANZA Y LA DESVIACIÓN TÍPICA

Están afectadas por las mismas interpretaciones que las medidas de tendencia central en tanto están afectadas por ella. Con
valores extremos ambas se ven distorsionadas, infladas en este caso. Sirven para escalas de intervalo y razón, pero no para
valores nominales ni ordinales.
Ahora bien, la varianza y la desviación típica son medidas de variación interindividual, es decir, miden las
diferencias individuales que aparecen en una muestra. Por lo tanto, cuando se dice que una muestra es más variable que
otra, no solo se está diciendo que los datos están menos concentrados en torno a la media, sino también que la muestra
presenta mayor variabilidad interindividual que la otra.
Las varianzas de dos variables solo son comparables si las medias son similares (no se pueden comparar peso y
motivación por sus varianzas, son variables heterogéneas, no tienen nada en común).
La varianza y la desviación típica tienen unidades distintas (al igual que el metro cuadrado es una unidad de
superficie y el metro, de longitud), pero la desviación típica es la que nos permite interpretaciones en función del grupo.
Supongamos, por ejemplo, una variable que tenga desviación típica 2 y media 3 y un sujeto que obtuvo una puntuación de
5. Vemos que está separado de la media en 2 puntos, entonces podemos decir que se distancia de la media una desviación
típica. Si hubiera obtenido un 6, diríamos que se distancia de la media 3 puntos (o sea, una desviación típica y media).

PUNTUACIONES TÍPICAS
 Puntuaciones directas. Son las puntuaciones originales de un sujeto.
 Puntuaciones diferenciales. Son las desviaciones con respecto a la media (Xd = X - X ). La media de las puntuaciones
diferenciales siempre es 0. Una puntuación diferencial indicará una mayor superioridad cuanto menor sea la desviación
típica; en otras palabras, el valor relativo de una puntuación diferencial es inversamente proporcional a la desviación
típica. Las puntuaciones típicas (simbolizadas por z) reflejan este hecho, como se puede observar en la siguiente
expresión:

Las puntuaciones típicas son las puntuaciones directas expresadas de una forma estandarizada (todas se referencian con la
desviación típica, así se pueden comparar unas con otras). Para calcularlas es necesario restarles la media y dividir entre la
desviación típica. Tienen una media de 0 y una desviación típica de 1. Al final se trata de la cantidad de desviación típica
que tiene un valor o puntuación directa.

OTRAS MEDIDAS DE VARIACIÓN

 Rango o recorrido. Es una medida de dispersión que no involucra la media. Es la puntuación mayor menos la puntuación
menor. Cuanto mayor es el rango de una distribución, mayor es la variabilidad de la variable estudiada y, por tanto, mayor
es su dispersión. Esta medida proporciona información sobre la variabilidad inicial de la variable estudiada, sin embargo,
el rango puede ser una medida engañosa si hay valores extremos en la distribución. La expresión del rango es:

 Coeficiente de apertura. Es una medida de dispersión relativa que establece relación entre el mayor y el menor valor de
la distribución. Es el cociente entre el valor máximo y mínimo de la distribución, osea, cuantas veces el menor cabe en el
mayor. A mayor coeficiente mayor apertura o rango.

24
25

 Rango o recorrido intercuartil. Es una medida de dispersión que corresponde a la diferencia entre el tercer y el primer
cuartil de la distribución analizada.
 Rango o recorrido semi-intercuartil. Es una medida de dispersión que corresponde a la diferencia entre el tercer y el
primer cuartil dividida entre 2. Busca corregir el concepto de rango en valores extremos.
 Rango percentil 10-90. Es una medida de dispersión que corresponde a la diferencia entre el percentil 90 y el 10 •
Desviación media. Es la media de los valores absolutos de las desviaciones respecto a la media aritmética.Se simboliza
por D x y su fórmula es:

 Desviación mediana. Es la media de los valores absolutos de la desviación respecto a la mediana. Se simboliza por D Me y
su fórmula es:

La desviación mediana informa sobre la distancia de los datos con respecto a su mediana, de forma que cuanto mayor sea la
dispersión existente en los datos, mayor es el promedio en valor absoluto de las diferencias de los mismos con respecto a la
mediana.

Ejemplos de estos últimos conceptos en la página 130.

7. Introducción a la probabilidad
1. ALGUNAS DEFINICIONES

• Probabilidad: estudio de la verosimilitud con la que un suceso aleatorio puede llegar a ocurrir.
• Teoría de la probabilidad: es la rama de la estadística y de la matemática que analiza fenómenos aleatorios.
• Experimento aleatorio. Es toda acción cuyo resultado no se puede predecir con certeza.
• Suceso elemental. Es cada uno de los resultados posibles de un experimento aleatorio. La realización de un experimento
aleatorio da lugar a un suceso elemental, y solo uno, de entre los posibles.
• Espacio muestral. Conjunto de todos los resultados posibles (sucesos elementales) de un experimento aleatorio. Se
representa por E.
• Verificación de un suceso elemental. Es la observación de ese suceso elemental al realizar el experimento aleatorio.
• Suceso. Es cualquier subconjunto de los elementos de un espacio muestral. Todos los subconjuntos que podrían definirse
sobre E forman una clase, sobre la que definiremos algunas operaciones. Un suceso se verificará cuando el experimento
aleatorio dé lugar a uno de los sucesos elementales que integran el subconjunto que lo define.
• Sucesos incompatibles o exclusivos. Dos sucesos son incompatibles si no tienen elementos comunes y, por tanto, no
pueden verificarse simultáneamente.
• Complemento de un suceso. Es el subconjunto de sucesos elementales del espacio muestral que no participan en ese
suceso.

25
26

• Intersección de dos sucesos. Es el subconjunto de elementos del espacio muestral que simultáneamente están incluidos
en los subconjuntos de ambos sucesos (ser mujer y tener más de 40 años). Se representa por ∩ (A∩B). Cuando la
intersección de dos sucesos es un subconjunto vacío se dice que son sucesos incompatibles o exclusivos.
• Unión de dos sucesos. Es en su conjunto de elementos del espacio muestral (E) que están incluidos, al menos, en uno de
esos sucesos. Se representa por U (sujetos que cumplen de dos características definidas cada una de ellas o las dos a la
vez, por ejemplo ser mujer y tener mas de 40 años: los que son mujeres, los que tienen más de 40, sean hombres o
mujeres, los que son mujeres y tienen más de 40). Se representaría como AUC.
• Diferencia de dos sucesos: subconjunto de E integrado por los sucesos elementales que pertenecen al primero pero no al
segundo.
• Complemento de un suceso: subconjunto de E integrado por los sucesos elementales no incluidos en ese suceso. Lo
representamos por el signo (') o (C) junto a la letra que designa el suceso. Así, A' o AC representa el complemento del
suceso A.
• Suceso imposible. Es un suceso que no contiene ningún suceso elemental y tiene una probabilidad igual a 0.
• Suceso seguro. Es un suceso que contiene todos los sucesos elementales del espacio muestral y tiene una probabilidad
igual a 1.
• Sucesos independientes. Dos sucesos A y B son independientes cuando la probabilidad del suceso A no se ve alterada
por el hecho de que se verifique B, entonces la probabilidad de la intersección de los dos sucesos es igual a la
multiplicación de sus probabilidades.
Cuando dos sucesos son independientes, la probabilidad condicional puede sustituirse por la simple y, además, la
probabilidad de verificación simultánea de dos sucesos independientes es igual al producto de sus probabilidades simples,
es decir, si A y B son sucesos independientes, entonces:

Dos experimentos aleatorios son independientes si se cumple la condición de independencia entre sucesos para
cualquier par de sucesos A y B definidos respectivamente sobre sus espacios muestrales. Un caso particular de aplicación
muy frecuente es el de la repetición de un mismo experimento aleatorio de tal forma que las probabilidades asociadas a
cada resultado no dependan de los resultados obtenidos previamente. Por ejemplo, si lanzamos una moneda varias veces,
la probabilidad de cara o cruz en cada lanzamiento es independiente de lo que ha salido en los lanzamientos anteriores. Si
definimos algún suceso sobre la experiencia de extracción de un trabajador del equipo,las probabilidades asociadas a esos
sucesos, al hacer varias extracciones sucesivas, no se verán alteradas si después de cada extracción reponemos de nuevo
el sujeto extraído. Por tanto, si A1, A2 ... Ak son sucesos definidos sobre experimentos independientes, resulta:

• Sucesos dependientes. Dos sucesos, A y B, son dependientes cuando la probabilidad del suceso A se ve alterada por el
hecho de que se verifique B.

2. TIPOS DE ESPACIOS MUESTRALES

• Espacios muestrales finitos: tienen un número de sucesos elementales finito.


• Espacios muestrales infinitosnumerable: tienen infinitos sucesos elementales, pero estos pueden ponerse en
correspondencia biunívoca con los números naturales (sobre la indeterminación de que suceda un evento, no sobre la
cantidad de sucesos que pueden ocurrir, por ejemplo, crías en una camada: hay indeterminación pero el resultado es un
número natural).

26
27

• Espacios muestrales infinitos no numerables: tienen infinitos sucesos elementales, pero estos no pueden ponerse en
correspondencia biunívoca con los números naturales (tiempo invertido en realizar una tarea).
En sus inicios, la probabilidad consideraba principalmente eventos discretos, es decir, espacios muestrales finitos o
infinitos numerables, y sus métodos estaban basados esencialmente en combinatorias y conteo; posteriormente se
incorporó el análisis del campo continuo, con espacios muestrales infinitos no numerables. El campo continuo requiere la
utilización de áreas y, por tanto, se hace necesario usar técnicas analíticas y métodos de integración.

3. DEFINICIÓN DE PROBABILIDAD

• Probabilidad: referencia a cómo los eventos puntuales que tienen resultados inciertos, al estudiar su repetición un
número grande de veces, empiezan a tener resultados globalmente previsibles y a mostrarse sujetos a ciertas leyes. La
probabilidad es un concepto ideal, pues se refiere a las frecuencias con las que ocurrirían las cosas en el caso hipotético de
que los eventos se repitiesen un número infinitamente grande de veces y en las mismas condiciones.
En general, la confianza puesta en cada uno de los resultados posibles en la próxima realización del evento debe ser
proporcional al número de repeticiones que de cada una de esas alternativas se darían en el futuro. La asignación de
números (o probabilidades) a esos grados de confianza depositados en la obtención de cada resultado es la clave del
concepto de probabilidad. La probabilidad de un suceso es un número que cuantifica en términos relativos las opciones de
verificación de ese suceso.
Las opciones se cuantifican en términos relativos para que las probabilidades sean números comparables.

3.1. ENFOQUE CLÁSICO O A PRIORI

Se considera el llamado principio de indiferencia, según el cual, al realizar un experimento aleatorio, todos los elementos
del espaciomuestral tienen las mismas opciones de ser verificados. La probabilidad de un suceso se define, entonces,
como la frecuencia relativa de ese suceso en el espacio muestral o, dicho de otro modo, la probabilidad de un suceso es
igual al cociente entre el número de casos favorables y el número de casos posibles. Así la probabilidad del suceso B
sería:

En muchas ocasiones existe una dificultad práctica para calcular el número de casos favorables y el número de
casos posibles. Los procedimientos habitualmente utilizados para determinar estas cantidades reciben los nombres de
técnicas de conteo o combinatoria. De la forma de definir la probabilidad mediante este enfoque se deducen algunas
consecuencias y propiedades:
• La probabilidad de un suceso es un valor comprendido entre 0 y 1.
• Un suceso que no contiene ningún suceso elemental tiene una probabilidad igual a 0 y, por ello, recibe el nombre
de suceso imposible. Si A es un suceso de este tipo, entonces P(A) = 0/n = 0.
• Un suceso que contiene todos los sucesos elementales del espacio muestral tiene una probabilidad igual a 1 y, por
ello, recibe el nombre de suceso seguro. Si A es un suceso de este tipo, entonces P(A) = n/n = 1.
• La suma de las probabilidades de un suceso y su complementario es igual a 1, como consecuencia de ello la
probabilidad del complemento de un suceso A es igual a 1 menos la probabilidad del suceso: P(A') = = 1 – P(A).

3.2. ENFOQUE FRECUENCIALISTA O A POSTERIORI

27
28

No siempre se puede asumir el principio de indiferencia y, por tanto, no siempre se puede aplicar el enfoque clásico.En
estos casos se puede aplicar el enfoque frecuencialista o a posteriori, según el cual la probabilidad se determinaría
mediante una operación ideal de repetición sistemática del experimento aleatorio y de conteo del número de veces que se
verifican los sucesos. Las opciones de verificación de un suceso se manifestarían en el número de veces que se repite este
al realizar una y otra vez el experimento aleatorio. Sin embargo, para estar seguros de que las veces que se verifica el
suceso representan proporcionalmente su probabilidad, el número de veces que se realiza el experimento debe ser
infinitamente grande. Por tanto, desde el enfoque frecuencialista, la probabilidad de un suceso A se define como el límite
de la frecuencia relativa de apariciones de ese suceso cuando el número de repeticiones del experimento aleatorio tiende a
infinito.

La probabilidad no dice nada sobre los hechos individuales, sino sobre las opciones a la larga. No obstante, la
convergencia entre el cociente y el valor de probabilidad P(A) es extraordinariamente rápida.

• Teorema de Bernoulli. Si la probabilidad de un suceso A es P(A) y se hacen n ensayos, independientemente y bajo las
mismas condiciones, la probabilidad de que la frecuencia relativa de aparición de A difiera de P(A) en una cantidad muy
pequeña se acerca a 0 a medida que el número de ensayos se hace indefinidamente largo.Se puede demostrar que es muy
improbable que la proporción de caras al lanzar una moneda imparcial 100 veces quede fuera del intervalo 0,40-0,60,
mientras que si el número de lanzamientos asciende a 1.000 es casi seguro que estaría entre 0,47 y 0,53, y si se lanza
10.000 veces, ese cociente difícilmente será un valor externo del intervalo 0,49-0,51.

La diferencia fundamental entre este enfoque y el anterior es que mientras en el primero n era el tamaño del espacio
muestral, en este representa el número de repeticiones del experimento aleatorio. De esta definición se deducen las mismas
consecuencias y propiedades que exponíamos en conexión con el enfoque clásico.

Si se tiene un conocimiento exhaustivo del espacio muestral y se puede asumir el principio de indiferencia, entonces la
probabilidad de un suceso puede obtenerse mediante la definición del enfoque clásico. Cuando no se cumple alguna de esas
dos condiciones, la probabilidad se define según el enfoque a posteriori, pero no se puede calcular con exactitud, puesto que
ningún experimento aleatorio se puede repetir un número infinito de veces.En resumen, la probabilidad es un valor ideal
relacionado con las expectativas a la larga y, por tanto, sus leyes solo se cumplen cuando el número de repeticiones tiende a
infinito. En realidad, el enfoque frecuencialista es más universal que el clásico, al que en alguna medida incluye.

4.PROBABILIDAD CONDICIONAL (O CONDICIONADA)

La probabilidad de verificación del suceso A, sabiendo que se verifica el suceso B. Este es un caso especial deprobabilidad
que se llama probabilidad condicional, se representa P(A|B) y se lee probabilidad de A, condicionada a B o bien
probabilidad de A, dado B. Es fácil demostrar que esa probabilidad puede obtenerse a partir de las probabilidades de la
intersección de esos sucesos y de la condición impuesta. En términos generales:

Por tanto, la probabilidad condicionada de un suceso A, dada la verificación de otro suceso B, podemos definirla como la
probabilidad de su intersección dividida entre la probabilidad del condicionante.
28
29

5. TEOREMAS BÁSICOS

• Teorema de la adición. Cuando dos sucesos no son incompatibles, es decir, tienen elementos comunes, la probabilidad
de su unión, P(A U B), es igual a la suma de sus probabilidades menos la probabilidad de su intersección.

La suma simple supone contabilizar dos veces aquellos sucesos elementales que verifican simultáneamente las
condiciones que definen los sucesos. Es claro que hay que restar los elementos de la intersección para que cada uno de
ellos solo sea computado una vez en el cálculo de la probabilidad. Una consecuencia de ello es que la unión de dos
sucesos incompatibles queda reducida a la suma de sus probabilidades, dado que su intersección es un suceso imposible.

• Teorema del producto. Si A1, A2… Ak son sucesos definidos sobre experimentos independientes, la multiplicación de su
intersección es la multiplicación de las probabilidades individuales (explicado arriba en sucesos independientes).

• Teorema de la probabilidad total. Teorema que se utiliza cuando se tienen particiones del espacio muestral que generan
dos o más grupos con probabilidades distintas de ocurrencia. Según este teorema, la probabilidad del evento total A es
igual a la suma de las probabilidades condicionales multiplicadas por la probabilidad de cada grupo (ejemplo en el libro
página 155).

• Teorema de Bayes. Teorema que se utiliza cuando se tienen particiones del espacio muestral que generan dos o más
grupos con probabilidades distintas de ocurrencia.

Que en nuestro ejemplo será (para tres sucesos):

También se conoce como teorema de la probabilidad de las causas, puesto que nos da la probabilidad de un evento B i (una
posible causa), dado que el suceso A ha ocurrido. El teorema de Bayes es comúnmente utilizado en las ciencias del
comportamiento para atribuir probabilidades a las causas de ciertos comportamientos. Por ejemplo, si ha ocurrido el
síntoma ansiedad, cuál es la probabilidad de que se deba a un trastorno como la depresión, el estrés, etc.

• Probabilidad discreta. Es la probabilidad aplicada al estudio de sucesos cuyo espacio muestral es finito o infinito
numerable, y se puede determinar mediante combinatorias y conteo.

29
30

• Probabilidad continua. Es la probabilidad aplicada al estudio de sucesos cuyo espacio muestral es infinito no numerable,
y se puede determinar mediante técnicas analíticas (integración de áreas)

P (suceso seguro) = 1
P (suceso imposible) = 0

Un ejemplo de infinito no numerable sería le tiempo invertido en realizar una tarea.

A U B: todos los que están tanto en A como en B


A П B: solo los que están en A y B al mismo tiempo.

TEOREMA DE LA ADICIÓN: P(AUBUC)= P(A)+P(B)+P(C) + P (AПBПC) – P(AПB) – (AПB) – (BПC)


P(AUB)= P(A) + P(B) – P(AПB)
TEOREMA DEL PRODUCTO: P(AПB)= P(A) . P(B)

TEOREMA DE BAYES: P(A/B)= P(AПB)


P(B)

8. Introducción a la inferencia estadística.


1. CONTRASTE DE HIPÓTESIS

El objetivo de la estadística inferencial es extraer conclusiones de tipo general a partir de los datos particulares; en otras
palabras, permite hacer inferencias del comportamiento de una población a partir de una muestra que la representa. La
estadística inferencial tiene dos grandes ramas: el contraste de hipótesis y la estimación. El contraste de hipótesis nos
permite decidir si una proposición acerca de una población puede ser mantenida o debe ser rechazada. El contraste de hipó-
tesis también se suele llamar prueba de significación o prueba estadística. El objetivo de la estimación es obtener una
aproximación al valor de cierto parámetro de la población. y el de la prueba de hipótesis es decidir si una afirmación acerca
de una característica de la población es verdadera.

1.1. PASOS DE UN CONTRASTE DE HIPÓTESIS

El primer paso del proceso de verificación de una hipótesis consiste en formular estadísticamente la hipótesis científica
que se desea contrastar.

La media poblacional se nota con letras griegas y que las hipótesis siempre se deben realizar a nivel poblacional,
pues lo que se pretende a través de la estadística inferencial es precisamente generalizar a toda la población un resultado
encontrado con una muestra representativa de dicha población.
El segundo paso consiste en buscar evidencia empírica que informe si la hipótesis es sostenible o no. Una
hipótesis será compatible con los datos empíricos cuando a partir de ella se puede deducir un resultado muestral (un
estadístico) con un nivel aceptable de precisión.La discrepancia entre la afirmación propuesta en la hipótesis y el resultado
muestral puede indicar dos cosas:
• La hipótesis no es correcta.

30
31

• Han ocurrido fluctuaciones debidas al azar.

El tercer paso es verificar los supuestos, que son una serie de afirmaciones sobre la forma de la distribución de la
muestra y de la población que se deben cumplir para que el contraste de hipótesis sea correcto.
El cuarto paso es aplicar un estadístico de contraste que tenga una distribución de probabilidad conocida y que
proporcione información relevante sobre la hipótesis que se pretende probar.
El último paso del proceso es tener una regla de decisión en términos de probabilidad para establecer si la
hipótesis planteada es incorrecta o si, por el contrario, es compatible con los datos observados.

1.2. LAS HIPÓTESIS ESTADÍSTICAS

Una hipótesis estadística es una afirmación sobre una o más distribuciones de probabilidad o sobre el valor de uno o más
parámetros de esas distribuciones. Las hipótesis estadísticas se suelen representar por la letra H seguida de una afirmación
que le da contenido a la hipótesis, por ejemplo:
• H: la variable X se distribuye normalmente.
• H: μv = μm.
• H: μ ≤ 30.

Todo contraste de hipótesis se basa en la formulación de dos hipótesis: la hipótesis nula representada por H0 y la
hipótesis alternativa representada por H 1.
La hipótesis nula (H0) es la que se somete a contraste. Consiste en una afirmación concreta sobre la forma de la
distribución de probabilidad o sobre el valor de algunos de los parámetros de la distribución de la variable de estudio.
La hipótesis alternativa (H1) es la negación de la nula. H1 incluye todo lo que H0 excluye. H0 suele ser exacta (un
parámetro igual a un determinado valor), H1 suele ser inexacta (distinta, mayor que..., menor que...).
Las hipótesis nula y alternativa suelen plantearse como hipótesis rivales. Son exhaustivas y mutuamente
excluyentes, lo que implica que si una es verdadera, la otra es falsa.

1.3. SUPUESTOS DE UN CONTRASTE DE HIPÓTESIS

Se trata de afirmaciones que necesitamos establecer (sobre la población de partida y sobre la muestra utilizada) para
conseguir determinar la distribución de probabilidad en la que se basará nuestra decisión sobre H 0.Los supuestos cambian
según la prueba estadística que estemos utilizando y es muy importante verificar su cumplimiento antes de tomar decisiones
con base en los resultados obtenidos (ejemplo de técnica estadística ANOVA en el libro pag 174 y siguientes).

1.4. EL ESTADÍSTICO DE CONTRASTE

• Estadístico de contraste (o de prueba). Es aquella función o distribución de las observaciones muéstrales que se usa
para determinar si la hipótesis nula debe ser aceptada o rechazada. Dicho estadístico es un resultado muestral que cumple
la doble condición de proporcionar información empírica relevante sobre la afirmación propuesta en la hipótesis nula y
además debe poseer una distribución de probabilidad conocida.
El estadístico llamado prueba T de Student, que cumple los dos requisitos del estadístico de contraste:
• Proporciona información relevante para contrastar la hipótesis nula.
• Se conoce su distribución.
En el caso de la técnica de ANOVA, el estadístico usado es aquel que permite comparar varias medias poblacionales,
llamado prueba F. Tanto en el caso de la T como en el de la F, se trata de distribuciones de probabilidad muy estudiadas
y, por lo tanto, los valores de su distribución se pueden consultar en las llamadas tablas estadísticas, que contienen la
información de las curvas y áreas que se forman con la distribución de probabilidad continua del estadístico de prueba.
31
32

1.5 LA REGLA DE DECISIÓN

Una regla de decisión define las condiciones que llevan a la aceptación o rechazo de la hipótesis nula. El criterio de
decisión se basa en la partición de la distribución de probabilidad del estadístico de contraste en dos zonas mutuamente
excluyentes:
• Región de rechazo (zona crítica). Es un rango separado de valores tal que si el estadístico de prueba queda dentro, la
hipótesis nula debe rechazarse. Es el área de la distribución de probabilidad del estadístico de contraste que corresponde a
valores que se encuentran tan alejados de la afirmación establecida en la hipótesis nula que es muy poco probable que
ocurran si la hipótesis nula (H0) fuese verdadera. Su probabilidad se llama α, que es un valor denominado nivel de
significación o nivel de riesgo.

• Región de aceptación. Es un rango de valores tal que si el estadístico de prueba queda dentro, la hipótesis nula se declara
aceptable. Es el área de la distribución de probabilidad del estadístico que corresponde a valores del estadístico de
contraste próximos a la afirmación establecida en la hipótesis nula (H 0). Es, por tanto, el área correspondiente a los
valores del estadístico de contraste que es probable que ocurran si H 0 es verdadera. Su probabilidad es 1 – α, valor al que
se suele llamar nivel de confianza. Un nivel comúnmente utilizado es 1 – α = 1 – 0,05 = 0,95, ya que corresponde a un
95% de certeza en el rechazo o aceptación de la H 0, correspondiendo a un nivel de confianza adecuado en la mayoría de
los casos. El tamaño de las zonas de rechazo o aceptación se determina fijando el valor de α.
El nivel α es definido por el investigador, ya que corresponde al nivel de riesgo que está dispuesto a tolerar en la
decisión que se tome. Un nivel comúnmente utilizado es α = 0,05, ya que corresponde a un 5% de error en el rechazo o
aceptación de la hipótesis nula (H0), que es un nivel de riesgo tolerable en la mayoría de los casos.

• Valor crítico. Los valores críticos son los números que definen las fronteras de la región de rechazo. Dependen de:
- El nivel de significación, α
- El tipo de distribución de probabilidad del estadístico de contraste.
- El tipo de hipótesis alternativa que se esté contrastando (bilateral o unilateral).

Dependiendo de cómo se formule la hipótesis alternativa o de investigación (H 1), los contrastes de hipótesis pueden ser
unilaterales o bilaterales y el criterio para el rechazo de la hipótesis nula cambia.
Un contraste bilateral es aquel que prueba si la igualdad o diferencia de los estadísticos y su zona crítica se encuentra
repartida a partes iguales entre las dos colas de la distribución de probabilidad. Por lo tanto, se toma la decisión de rechazar
la hipótesis nula (H0) si el estadístico de contraste cae en la zona crítica o de rechazo, es decir, si el estadístico toma un
valor mayor que el percentil 100 (1 – α/2) que se busca en la tabla estadística.Al ser una probabilidad, es un valor entre 0 y
1 y es una vía rápida y sencilla para decidir sobre el rechazo o aceptación de la hipótesis nula.

Un ejemplo de contraste bilateral es:


• H0: μ1 = μ2 = ... = μj . Las j medias poblacionales son iguales.
• H1: μj ≠ μj '. No todas las medias son iguales, hay al menos una media que difiere de otra.

En un contraste unilateral se prueba si el valor del estadístico es mayor o menor que un valor determinado y su
zona crítica se encuentra a la derecha o a la izquierda de la distribución de probabilidad del estadístico dependiendo del tipo
de contraste. Por lo tanto, en los contrastes unilaterales, la zona crítica se encuentra en una de las dos colas de la
distribución de probabilidad.
32
33

Un contraste unilateral derecho es el que se aprecia en el siguiente ejemplo, en el que la variable medida puede ser la
edad:
• H0: μ ≤ 30 (la media de la edad es menor o igual a 30 años).
• H1: μ > 30 (la media de la edad es mayor a 30 años).
Cuando la hipótesis es unilateral derecha, se toma la decisión de rechazar la hipótesis nula (H 0) si el estadístico de
contraste cae en la zona crítica que, en este tipo de hipótesis, está en la cola derecha de la distribución, es decir, si el
estadístico toma un valor mayor que el percentil 100 (1 – α) que se busca en la tabla. De nuevo, es más práctico usar el p
valor asociado al estadístico.

Un contraste unilateral izquierdo se observa en el siguiente ejemplo:


• H0: μ ≥ 30.
• H1: μ < 30.
En el contraste unilateral izquierdo, se toma la decisión de rechazar la hipótesis nula si el estadístico de contraste cae
en la zona crítica que está en la cola izquierdade la distribución de probabilidad del estadístico, es decir, si el
estadístico toma un valor menor que el percentil 100 (α) que se busca en la tabla. Lo demás idem al derecho.

1.4. EL VALOR p

El valor p es el nivel de significación más pequeño que conduce al rechazo de la hipótesis nula. El valor p señala la
probabilidad (suponiendo que H0 sea cierta) de obtener un valor del estadístico de prueba, por lo menos tan extremo como
el obtenido. Este procedimiento compara la probabilidad, llamada valor p, con el nivel de significancia α. Si el citado valor
p es menor que el nivel de significancia α, H0 se rechaza. Por el contrario, si el valor p es mayor que el nivel α, H 0 se acepta.

1.5. TIPOS DE ERRORES QUE SE PUEDEN COMETER EN UN CONTRASTE DE HIPÓTESIS

Existen dos tipos de errores que son inherentes al proceso de contraste de hipótesis:

• Error tipo I. Consiste en rechazar la hipótesis nula (H0) cuando realmente es cierta.
• Error tipo II. Consiste en aceptar la hipótesis nula (H0) cuando realmente es falsa.

Hemos visto que, según la regla de decisión, la probabilidad de cometer el error de tipo I es equivalente a α, es decir, la
probabilidad de rechazar la hipótesis nula cuando es cierta es α; es por ello que α se llama también nivel de significación
del contraste. Es importante notar que α es una probabilidad condicional; es la probabilidad de rechazar la hipótesis nula
dado que es cierta.

P(Rechazar H0 | H0 es cierta) = α

Puesto que la hipótesis nula tiene que ser aceptada o rechazada, la probabilidad de aceptar la hipótesis nula cuando es
cierta es (1 – α), es decir:

P(Aceptar H0 | H0 es cierta) = 1 – α

Recuérdese que 1 – α es el nivel de certeza.


33
34

Por otro lado, la probabilidad de cometer el error de tipo II se llama β, es decir, la probabilidad de aceptar una hipótesis
nula falsa se denota por β. También puede verse como:

P(Aceptar H0 | H0 es falsa) = β

Entonces, la probabilidad de rechazar una hipótesis nula falsa es (1 – β), y se denomina potencia del contraste. Visto
como una probabilidad condicional:

P(Rechazar H0 | H0 es falsa) = 1 – β

1.7.1. Influencia de las probabilidades α y β sobre una prueba de hipótesis

Idealmente, las probabilidades de los dos tipos de error deberían ser 0 o lo más pequeñas posible. Sin embargo, hay una
clara compensación entre las dos.Cuando α decrece, β aumenta, y viceversa.
Si se usa la regla de decisión modificada, será más probable aceptar la hipótesis nula, por tanto, al disminuir la
probabilidad de cometer un error de tipo I, se ha aumentado la probabilidad de cometer el error de tipo II. La única
manera de disminuir simultáneamente las dos probabilidades de error será obtener más información sobre la verdadera
media de la población, tomando una muestra más grande.
lo que se hace en la práctica es fijar la probabilidad de cometer el error de tipo I a un nivel deseado, es decir, se fija
el nivel de significación α. Esto determina, entonces, la regla de decisión adecuada, que, a su vez, determina la
probabilidad de un error de tipo II.

2. CASOS PARTICULARES

2.1. CONTRASTES PARA LA MEDIA POBLACIONAL


El objetivo es contrastar una hipótesis sobre la media poblacional desconocida. Asumiendo una población con distribución
normal y una varianza poblacional, σ2, conocida, se comenzará con el problema de contrastar la hipótesis nula de que la
media poblacional es igual a cierto valor, µ0. Esta hipótesis se representa:

Supóngase que la hipótesis alternativa de interés es que la media poblacional supera este valor específico, es decir:

La idea es buscar la forma de un contraste con un nivel de significación α prefijado.El contraste se apoya en el
hecho de que X ~ N(µ, σ2), dado que la población se distribuye normalmente. Por tal razón, utilizamos el siguiente
estadístico de contraste llamado Z:

Cuando la hipótesis nula es cierta, µ es igual a µ0 y el estadístico Z tenderá a 0. Ahora bien, se rechazará la
hipótesis nula si la media muestral es mucho mayor que el valor µ0 postulado para la media poblacional. Por tanto, H0 será
rechazada si se observa un valor alto para el estadístico de contraste en la ecuación anterior.
34
35

Ver ejemplos en el manual, página 183 y siguientes (contraste Z bilateral y contraste Z unilateral derecho).

• Potencia estadística. Probabilidad de rechazar una hipótesis nula falsa.


• Certeza. Probabilidad de aceptar una hipótesis nula verdadera.
• Valor p. Es el nivel de significación más pequeño que conduce al rechazo de la hipótesis nula.

Contraste de hipótesisprueba de significación

media muestralμmedia poblacional.

HIPÓTESIS NULA H0
H0: X X normal. Se distribuye normalmente
H0: μv=μm. (ejemplo: la media de varones es igual a
la de mujeres en inteligencia)
H0: ρ= 0. O la correlación entre dos variables es
igual a 0.
H0: μ=30. O la media de la variable es igual a 30.
La H0 siempre tiene que incluir el igual (=, ≤, ≥)

LA HIPÓTESIS ALTERNATIVA H1 Negación de la


hipótesis nula.
H1: la variable X no se distribuye normalmente
H1: μv≠ μm o la media de los varones no es igual
que la de las mujeres.
H1: ρ≠ 0. O la correlación entre dos variables es
distinta de 0
H1: μ>30. O la media de la variable es mayor a 30.

REGLA DE DECISIÓN
Zona de rechazo  región crítica.
Zona de aceptación.

35
36

1–α ERROR TIPO I


Nivel de confianza α
Rechazar H0 cierta

ERROR TIPO II 1–β


β Potencia del contraste.
Aceptar H0 falsa

Si α, β y si α,β

CONTRASTES PARA LA MEDIA POBLACIONAL

μ desconocida

se distribuye normalmente

conocida

ESTADISTICO DE CONTRASTE.

05.
Las hipótesis de contraste mediante Sapiro-Wilk son: 
H0: la población tiene una distribución normal
 H1: la población no tiene una distribución normal.

* Sapiro-wilk para muestras pequeñas para comprobar la normalidad de la población.

*α= nivel de significación, el margen de error, se suele valorar en 0,5


*si p > α  no se puede rechazar H0 *si p< α  si se rechaza H0
Por ejemplo: p=0’15>0’05. No se puede rechazar la hipótesis nula, por lo que concluimos que la población tiene una
distribución normal.

36
37

se tiene regular evidencia de que H0 no es


VALOR P 0,10 verdadera

se tiene fuerta evidencia de que H0 no es


0,05 verdadera
si el valor p es
menor que
se tiene muy fuerte evidencia de que H0 no
0,01
es verdadera

se tiene evidencia extremadamente fuerte de


0,001 que H0 no es verdadera

9. Teoría de la correlación.
1. INTRODUCCIÓN

• Análisis de correlacional lineal simple. Procedimiento estadístico mediante el que se busca cuantificar la intensidad y
sentido de la relación entre dos variables (X i e Yi).El análisis de correlación y regresión son complementarios, pues las
predicciones que se realizan con el análisis de regresión son mejores cuando la correlación entre las dos variables es alta.

2. EVALUACIÓN GRÁFICA DE LA RELACIÓN ENTRE DOS VARIABLES: EL DIAGRAMA DE


DISPERSIÓN

El primer paso para realizar un análisis de correlación es inspeccionar el diagrama de dispersión entre las dos variables.
En el diagrama de dispersión, en el eje de abscisas se representan los valores de la variable X y en el eje de ordenadas, los
valores de la variable Y. Cada punto representa una pareja de observaciones (X i, Yi).
Por medio de dicho diagrama se puede conocer si la relación entre las dos variables es directa o positiva (a medida que
aumentan los valores de Xi, también aumentan los de Yi o a medida que disminuyen los valores de Xi, también disminuyen
los de Yi), inversa o negativa (a medida que aumentan los valores de una de las variables, disminuyen los valores de la
otra variable), si Xi e Yi son linealmente independientes o si, por el contrario, la relación entre las variables no es lineal,
sino que tiene otra naturaleza (hiperbólica, potencial, exponencial, etc.).

3. COEFICIENTE DE CORRELACIÓN DE PEARSON

• Coeficiente de correlación de Pearson. Coeficiente que sirve para cuantificar la fuerza de la relación entre dos variables
cuantitativamente medidas en escala de intervalo o razón. Dicho coeficiente se nota por rxy, cuando es calculado en la
muestra, y ρxy, cuando nos referimos al parámetro poblacional, y se determina mediante la fórmula:

El valor de rxy oscila entre – 1 y 1. Los valores próximos a 0 indican ausencia de relación lineal, es decir, independencia
lineal, y los valores próximos a 1 o – 1 indican alto grado de relación lineal (positiva o negativa, respectivamente).

37
38

3.1. COMPROBACIÓN DE QUE EL COEFICIENTE DE CORRELACIÓN ES ESTADÍSTICAMENTE


SIGNIFICATIVO

Para comprobar que el coeficiente de correlación es estadísticamente significativo (es decir, que a nivel de la población es
diferente de 0), es necesario realizar un contraste de hipótesis sobre el parámetro ρ xy:, así:
• Plantear las hipótesis. Las hipótesis que se pretende contrastar al realizar el contraste de hipótesis del valor del parámetro
de correlación son:
– Para el contraste bilateral:
- H0: ρxy = 0.
- H1: ρxy ≠ 0.
– Para el contraste unilateral derecho:
- H0: ρxy ≤ 0.
- H1: ρxy> 0.
– Para el contraste unilateral izquierdo:
- H0: ρxy ≥ 0.
- H1: ρxy< 0.

• Definir el estadístico de contraste. El estadístico de contraste es una prueba T de Student con n – 2 grados de libertad:

• Considerar una regla de decisión. Cuando la hipótesis es bilateral, se rechaza la hipótesis nula si el valor de T es menor
que T α/2 o mayor que T1-α/2.
En la prueba unilateral derecha, se rechaza la hipótesis nula cuando T es mayor que T 1-α y en la prueba unilateral izquierda,
se rechaza cuando T es menor que T α. La regla de decisión es, entonces, muy simple: para el caso unilateral, si el valor p
del estadístico T es menor que el valor de α, se rechaza la hipótesis nula, y para el caso bilateral, se rechaza la hipótesis nula
si el valor p es menor que α/2.
La conclusión que se debe establecer, si se rechaza la hipótesis nula en el caso de la prueba de hipótesis bilateral, es que se
dispone de evidencia estadística suficiente para afirmar que existe correlación lineal significativa entre las variables
consideradas. Por el contrario, si se mantiene la hipótesis nula, se concluye que con los datos disponibles no hay evidencia
suficiente para afirmar que las dos variables estudiadas se encuentren linealmente re lacionadas, en otras palabras, son
independientes. La hipótesis bilateral se utiliza cuando no se tiene una idea previa sobre el tipo de relación que se
encontrará entre las variables.
En el caso de las hipótesis unilaterales, se está probando no solo la existencia de correlación significativa, sino también del
sentido de la misma. La hipótesis unilateral se realiza cuando existe alguna evidencia (empírica o proveniente de estudios
anteriores) de que la correlación puede tener cierto sentido.

• Evaluar el cumplimiento de los supuestos. Los supuestos del contraste de la correlación son:
– Independencia entre cada uno de los pares xi, yi y, por tanto, entre cada una de las n poblaciones.
– Normalidad en cada una de las n poblaciones.
– Homocedasticidad (homogeneidad de varianza) entre las n poblaciones.

Ejemplo en la página 199.

3.2. FÓRMULA ABREVIADA

38
39

Si se dispone de la desviación típica de las variables, una fórmula de cálculo manual más simple es esta:

4. CORRELACIÓN Y COVARIANZA

La correlación (rxy) y covarianza (σxy) expresan lo mismo: cuantifican el grado de covariación, y a ese grado de covariación
lo denominamos relación. El coeficiente de correlación no es otra cosa que la covarianza calculada con puntuaciones
típicas. La covarianza expresa el grado de relación entre las variables, pero se calcula con puntuaciones directas.
Correlación y covarianza se relacionan mediante estas fórmulas:

Como medida de relación entre variables cuantitativas, se pueden utilizar tanto la covarianza como el coeficiente de
correlación de Pearson. El utilizar preferentemente el coeficiente de correlación se debe a dos razones principales:
• El utilizar puntuaciones típicas permite comparar todo con todo; dos coeficientes de correlación son comparables
entre sí cualquiera que sea la magnitud original de las puntuaciones directas. La magnitud de la covarianza va a
depender de la unidad utilizada y no se pueden comparar dos covarianzas, para comprobar dónde hay mayor
relación, cuando las unidades son distintas.
• El coeficiente de correlación r xy varía entre 0 (ausencia de relación) y un valor máximo de 1 (con signo + o –). El
que los valores extremos sean 0 y 1 facilita el uso y la valoración de la magnitud de estos coeficientes.

5. INTERPRETACIÓN DEL COEFICIENTE DE CORRELACIÓN

Una vez que hemos comprobado que un coeficiente de correlación es estadísticamente significativo (lo que quiere decir que
es muy improbable que la relación ocurra por azar y que, por lo tanto, se puede interpretar como indicador de una verdadera
relación distinta de 0), la cuestión siguiente es valorar la magnitud del coeficiente.

Algunos de los criterios para interpretar los coeficientes de correlación son los siguientes:
• El coeficiente de correlación expresa en qué grado los sujetos (objetos, elementos) están ordenados de la misma manera en
dos variables simultáneamente.
• Los valores extremos son 0 (ninguna relación) y ± 1 (máxima relación). Si r = 1, el orden (posición relativa) de los sujetos
es el mismo en las dos variables. Como ya se ha dicho, coeficientes próximos a 0 expresan poca relación, y los coeficientes
cercanos al 1 expresan mucha relación. Si el valor del coeficiente es negativo, y cuanto más se acerque a – 1, la relación es
inversa, es decir, a medida que aumentan los valores de X, disminuyen los de Y, o viceversa, y si el coeficiente es positivo
(cuanto más se acerque a + 1), la relación es directa, lo que quiere decir que a medida que aumentan los valores de X,
aumentan también los de Y.
• La magnitud del coeficiente es independiente del signo. Un coeficiente de 0,95 expresa más relación o que la relación es
más fuerte que un coeficiente de 0,75. El que la relación sea positiva o negativa es algo distinto de que sea grande o
pequeña.
• El suponer que una correlación muy alta entre dos variables quiere decir que las dos tienen una media parecida es un error
muy común. Una correlación alta significa simplemente que los dos elementos son ordenados de manera parecida, pero no
que tengan valores absolutos parecidos.
• Un coeficiente de correlación no es una proporción. Una correlación de 0,50 no quiere decir que haya un 50% de
variabilidad común entre las variables, pues este es el concepto de coeficiente de determinación.

39
40

• No es necesario que las dos variables (X e Y) estén medidas en la misma escala o en las mismas unidades, ya que, como
hemos visto, el cálculo se hace a partir de puntuaciones típicas.
• La correlación no implica causalidad. El que dos variables covaríen o se den juntas no quiere decir que una sea causa de la
otra.
• Cuando se tienen diversas variables y se han calculado correlaciones entre parejas de variables, es común (y más práctico)
organizarlas en la denominada matriz de correlaciones. La diagonal de la matriz de correlación es siempre 1 (porque una
correlación de una variable consigo misma es 1).

6. COEFICIENTE DE DETERMINACIÓN

El coeficiente de correlación elevado al cuadrado (r 2) se denomina coeficiente de determinación e indica la


proporción (o porcentaje, multiplicando por 100) de variabilidad común entre las variables, en otras palabras, indica la
proporción de varianza de una variable determinada o asociada a la otra variable. En términos más simples, r 2 indica el tanto
por ciento de acuerdo o de variabilidad común entre ambas variables. Un coeficiente de correlación de 0,50 indica un 25%
de varianza común entre ambas variables (0,502 = 0,25).

7. OTROS TIPOS DE CORRELACIÓN

• Correlación de Spearman. Se utiliza para cuantificar la relación entre variables ordinales y se nota por rs.
• Índice de Pearson y coeficiente de contingencia. Se utiliza para cuantificar la relación entre variables nominales.
• Relación con variables dicotómicas y dicotomizadas. Las variables dicotómicas son variables cualitativas con solo dos
modalidades (por ejemplo, sí-no, verdadero-falso). A una de sus modalidades se asigna un 1 y a la otra, un 0. Las variables
dicotomizadas son variables cuantitativas artificialmente divididas en dos categorías (por ejemplo, alto-bajo). Para evaluar
relaciones que involucran estos tipos de variable, se utilizan la correlación biserial puntual o r bp (cuando una variable es
cuantitativa y la otra, dicotómica), la correlación «fi» o φ (cuando las dos variables son dicotómicas), la correlación biserial
o rb (cuando una variable es cuantitativa y la otra, dicotomizada) y la correlación tetracórica o r t (cuando las dos variables
están dicotomizadas).

8. DISTRIBUCIONES CONJUNTAS: MARGINALES Y CONDICIONALES

Una distribución conjunta es una tabla de filas y columnas en la que en las filas se disponen los intervalos o
modalidades de Y y en las columnas, los de X. En las casillas se distribuyen las frecuencias conjuntas de las dos variables
nij.

En el caso de que alguna variable sea agrupada en intervalos, aparecerán las distintas clases o intervalos en los que
se haya agrupado, y las frecuencias corresponden al número de observaciones que hay en cada intervalo. Las tablas de
doble entrada reciben también el nombre de tablas de contingencias.
Las distribuciones marginales de las variables estadísticas X e Y se obtienen a partir de la tabla de doble entrada
considerando una sola variable. Representan las frecuencias de los valores de una variable independientemente de los
valores de la otra.
La distribución condicional de la variable X, fijado un valor de Y = y p, se obtiene de la tabla de doble entrada
considerando la primera columna y la correspondiente al valor de Y = y p
Análogamente, la distribución condicionada de la variable Y, fijado un valor X = x s , se obtiene de la tabla de
doble entrada considerando la primera fila y la correspondiente al valor de X = x s
Ejemplo en la página 208 del libro, todo queda claro allí.

COEFICIENTE DE CORRELACIÓN DE PEARSON.

40
41

Variables medidas en escalas de intervalos o de razón.

rxy= 1  la relación entre las variables es positiva y perfecta r xy= -1la relación entre las variables es negativa y
perfecta. rxy = 0  No hay relación entre las variables.

FORMULA ABREVIADA DE CORRELACIÓN

Correlación rxy
Covarianza σxy

COEFICIENTE DE DETERMINACIÓN
r2xy = (rxy)2  si se puede poner como porcentaje.
r2xy indica la proporción (%) de variabilidad (varianza) común entre las
variables.

OTROS TIPOS DE CORRELACIÓN


SPEARMANrs: variables ordinales

INDICE DE PEARSON y COEFICIENTE DE


CONTINGENCIA Variables nominales.

RELACIÓN CON VARIABLE DICOTÓMICAS Y


DICOTOMIZADAS  Correlación biserial puntual (rbp)

x\y 1-3 4-6 7-9 EJEMPLO DE


DISTRIBUCIÓN x ni
1-3 2 0 1 3
CONJUNTA DE 1-3 3
4-6 0 1 0 1
VARIABLES X e 4-6 1 Y.
7-9 0 0 2 2 7-9 2
2 1 3 n=6

Distribución marginal de la x (frecuencias de la x


independientemente de los valores de la y)

Distribución marginal de la y (frecuencias de la y independientemente de los valores de x)

Y ni
41
42

1-3 2
4-6 1
7-9 3
Distribución de la x condicionada y = 4 – 6

x ni/y = 4-6
1-3 0
4-6 1
7-9 0

Distribución de la y condicionada a x = 1 – 3

y nj/x = 1 -3
1-3 0
4-6 1
7-9 0

9. Regresión lineal simple


1. INTRODUCCIÓN

• Análisis de regresión lineal simple. Procedimiento estadístico mediante el cual se busca predecir el comportamiento de
una variable Yi denominada dependiente (o criterio) a través de una segunda variable X i llamada independiente o
predictora.
El análisis de correlación y regresión son complementarios, pues las predicciones que se realizan con el análisis de
regresión son mejores cuando la correlación entre las dos variables es alta.
Al igual que en el procedimiento de correlación, el primer paso para realizar un análisis de regresión es inspeccionar el
diagrama de dispersión entre las dos variables. . Si la relación entre las dos variables presenta una forma lineal, tiene sentido
realizar un análisis de regresión lineal.

2. EL MODELO DE REGRESIÓN LINEAL SIMPLE

La lógica del análisis de regresión es buscar un modelo lineal que sirva para predecir los datos de y en función de los
valores que asuma X, por lo tanto, intentaremos buscar la fórmula matemática correspondiente a una línea recta cuya
distancia con los puntos conformados por las parejas xi , yi sea mínima. En otras palabras, buscamos la ecuación
correspondiente a una recta que pase por la mitad de los puntos del diagrama de dispersión.
El modelo de regresión lineal simple se puede expresar como:

Donde los términos α y β son los parámetros de la recta de regresión. α es el origen, es decir, el punto en el que la recta
cruza el eje de ordenadas y β es la pendiente de la recta, es decir, la inclinación de la misma respecto al eje de abscisas.
El parámetro β es el que se debe someter a prueba para saber si las variables X e Y se encuentran linealmente relacionadas
de forma estadísticamente significativa. El término e se refiere a los errores, es decir, a las distancias entre cada pareja x i , yi
y la recta.

42
43

2.1. ECUACIÓN DE REGRESIÓN

Al igual que en el modelo de correlación, como no se conoce la verdadera recta de regresión (a nivel poblacional), se utiliza
la información de la muestra para estimar la recta. La ecuación de regresión en términos muestrales se puede escribir como
sigue:
y’i = A+ Bx.
A la ecuación anterior se le llama ecuación de regresión de y sobre x. Los términos A y B son estimadores de α y β,
respectivamente.
Utilizando el método de mínimos cuadrados, que se basa en hacer mínimas las distancias al cuadrado entre y e y'i , se llega
a los siguientes valores para A y B:

2.2. CONTRASTE DE HIPÓTESIS SOBRE EL PARÁMETRO β

Como ya se ha dicho, el parámetro β es la pendiente de la recta de regresión y representa el incremento que se produce en
Yi por cada unidad que se incrementa Xi . Si no existe pendiente (es decir, si β = 0), gráficamente la recta será paralela al
eje de abscisas y las variables serán linealmente independientes. Si existe pendiente (es decir, si β ≠ 0), las variables Xi e Yi
se encuentran linealmente relacionadas (positivamente si el valor de β es positivo y negativamente si el valor de β es
negativo).
Para comprobar la significación estadística del parámetro β, es necesario seguir los pasos de un contraste de hipótesis:
• Hipótesis sobre el coeficiente de regresión β.
- Para el contraste bilateral:
- H0: β = 0
- H1: β ≠ 0
- Para el contraste unilateral derecho:
- H0: β ≤ 0
- H1: β > 0
- Para el contraste unilateral izquierdo:
- H0: β ≥ 0
- H1: β < 0
• Definir el estadístico de contraste. El estadístico de contraste es una prueba T de Student con n – 2 grados de libertad:

43
44

• Considerar una regla de decisión. Cuando la hipótesis es bilateral, se rechaza la hipótesis nula si el valor de T es menor
que Tα/2 o mayor que T1-α/2. En la prueba unilateral derecha, se rechaza la hipótesis nula cuando T es mayor que T1-α y
en la prueba unilateral izquierda, se rechaza cuando T es menor que Tα. Los valores de T1-α, Tα, Tα/2 y T1-α/2 se pueden
consultar en la tabla correspondiente a la distribución T de Student, sin embargo, y como vimos en la Unidad 8, es mucho
más sencillo comparar directamente con el α el valor de probabilidad del estadístico (o valor p). La regla de decisión es,
entonces, muy simple: para el caso unilateral, si el valor p del estadístico T es menor que el valor de α, se rechaza la
hipótesis nula, y para el caso bilateral, se rechaza la hipótesis nula si el valor p es menor que α/2.
En el caso de las hipótesis unilaterales, se está probando no solo la existencia de relación significativa, sino también del
sentido de la misma. La hipótesis unilateral se realiza cuando existe alguna evidencia (empírica o proveniente de estudios
anteriores) de que la relación puede tener cierto sentido. Por ejemplo, se espera que a medida que aumenta la estatura de
una persona, aumente también el peso; en este caso, la hipótesis correcta es unilateral derecha, ya que se espera que el
parámetro β sea positivo, es decir, que la recta de regresión tenga una pendiente positiva. Ejemplo página 230.
3. SUPUESTOS Y ANÁLISIS DE RESIDUOS

En el caso en que nuestras observaciones sean una muestra aleatoria proveniente de una población, estaremos interesados en
realizar inferencias sobre la misma. A fin de que estas inferencias sean «estadísticamente razonables», se han de cumplir las
siguientes condiciones o supuestos:

3.1. LINEALIDAD

En la población, la relación entre las variables X e Y debe ser aproximadamente lineal: y = α + βx + e , siendo e la variable
que representa el error o los residuos (diferencias entre el valor estimado por el modelo y el verdadero valor de Y). Este
supuesto lo podemos establecer mediante la inspección del diagrama de dispersión. Si los puntos formados por las parejas
xi , yi parecen formar una línea, tenemos indicios de que la relación es lineal. Si observamos que los puntos se distribuyen
aleatoriamente o siguen un patrón diferente a una línea, es indicio de que la relación no es lineal. Otro indicador de la
linealidad de la relación es el ajuste del modelo. Esto lo podemos conocer mediante el coeficiente de determinación r 2
Cuanto más alto es el coeficiente de determinación, mejor ajuste tiene el modelo de regresión indicando linealidad en la
relación.

3.2. NORMALIDAD

Los residuos siguen una distribución normal con media 0.


Los residuos son variables aleatorias que representan el error del modelo de predicción, entonces, un residual estandarizado
para la observación i es:

Donde yi ‒ y'i es la diferencia entre el valor estimado por el modelo y el verdadero valor de Y, y se es la desviación
estándar de los errores. Para verificar que los residuales estandarizados se distribuyen normalmente con media 0 y varianza
1, se grafican los residuos estandarizados con la variable independiente x. Si se cumple el supuesto de normalidad, todos los
residuos estandarizados deben estar entre – 2 y 2. Otra herramienta gráfica que podemos utilizar es el histograma de los
residuos mediante el cual podemos ver si se aproxima al de la distribución normal.

Una estrategia no gráfica para estudiar la normalidad de los residuos es, como hemos venido estudiando en Unidades
previas, la prueba de hipótesis Shapiro-Wilk y la de Kolmogorov-Smirnov (estudio con estadístico de contraste en la página
235).

3.3. INDEPENDENCIA

44
45

Los residuos son independientes unos de otros.


El supuesto de independencia de los residuos se puede comprobar gráficamente por medio de un diagrama de dispersión
entre los residuales (en el eje Y) y el orden en el que se tomaron las observaciones (en el eje X). Si no se observa ningún
tipo de patrón y los puntos se aprecian aleatoriamente distribuidos, indica que los residuos son independientes.
Además se puede realizar el habitual contraste de hipótesis estadísticas requetevisto hasta ahora.

3.4. HOMOCEDASTICIDAD

Los residuos tienen varianza constante. Este supuesto también se conoce con el nombre de homocedasticidad. Para
comprobar este supuesto de manera gráfica, se realiza un diagrama de dispersión entre los residuales (en el eje de
ordenadas) y los valores de la variable independiente x o los valores estimados o predichos y' (en el eje de abscisas). Si se
observa algún patrón, como en este caso, indica que no se cumple el supuesto de homocedasticidad.

Como siempre se puede acudir a la prueba normal del contraste:


• H0: σ2 1 = σ2 1 = ... = σ2 m o que tienen varianza constante.
• H1: σ2 i ≠ σ2 j para alguna población i diferente de j o que no tienen varianza constante.

3.5. ¿QUÉ HACER CUANDO SE INCUMPLE ALGÚN SUPUESTO?

Cuando no se cumple el supuesto de relación lineal entre las variables, no tiene sentido realizar un análisis de regresión
lineal; entonces es preferible plantearse otro tipo de análisis. Cuando se incumple el segundo supuesto (normalidad de los
residuos), se puede probar a eliminar los casos atípicos (casos con residuos o errores muy extremos). En la mayoría de las
ocasiones, el problema se soluciona con esto.
Si el supuesto que no se cumple es el tercero (independencia de los residuos), es porque está indicando autocorrelación
entre las variables, es decir, la situación en la que los errores están correlacionados. Este efecto produce que se consideren
como relevantes variables que no lo son para el modelo. La solución es, entonces, examinar la matriz de correlaciones entre
las variables y eliminar del análisis aquellas variables que tengan correlaciones demasiado altas. Finalmente, cuando el
supuesto que no se verifica es el cuarto, se puede probar a transformar las variables en otra escala.

• Modelos de regresión. y = α + βx + e. Los términos α y β son los parámetros de la recta de regresión. α es el origen y β
es la pendiente de la recta
• Residual. Variables aleatorias que representan el error del modelo de predicción.
• Residual estandarizado.yi- y’i/se. Donde yi - y’i es la diferencia entre el valor estimado por el modelo y el verdadero
valor de Y, y se es la desviación estándar de los errores.
• Supuesto de linealidad. En la población, la relación entre las variables X e Y debe ser aproximadamente lineal.
• Supuesto de normalidad. Los residuos siguen una distribución normal con media 0.
• Supuesto de independencia. Los residuos son independientes unos de otros.
• Supuesto de homocedasticidad. Los residuos tienen varianza constante.

ECUACIÓN DE LA REGRESIÓN  a
ordenada en el origen b  pendiente de la recta
yi’ = A + Bx
A= -B

CONTRASTE DE HIPÓTESIS SOBRE EL PARAMETRO


Plantear las hipótesis
45
46

Definir el estadístico de contraste. El estadístico de contraste es una prueba T de student con n – 2 grados de

libertad.
Considerar una regla de decisión:
UNILATERAL DERECHA T > tablas (rechazamos H0)
UNILATERAL IZQUIERDA T< tablas (rechazamos H 0) BILATERAL
T > tablas (rechazamos H0)

SUPUESTOS Y ANÁLISIS DE RESIDUOS.


LINEALIDAD. Si r2xy es alto (se acerca a 1) el ajuste hecho con la recta es muy bueno). Los datos estimados serán
cercanos a los datos reales. 0 ≤ r2xy ≤ 1. Si no se cumple no se realiza análisis de regresión lineal.
o Para comprobarlo. Observamos la dispersión del diagrama o el ajuste del modelo. Este ultimo lo podemos
conocer con el coeficiente de relación r 2
NORMALIDAD. Los errores se distribuyen de forma normal y su media es 0 y su varianza y desviación típica valen 1. La
hipótesis a probar es H0: los residuos se distribuyen normalmente. H 1: los residuos no se distribuyen normalmente. Si
no se cumple se eliminan los casos atípicos o extremos.
opara comprobar la normalidad: SapiroWilk yKolmogorovSmirnov.
INDEPENDENCIA. Los residuos son independientes unos de otros. La hipótesis a probar sería H0: los residuos son
independientes. H1: los residuos no son independientes. Si no se cumple se eliminan aquellas variables que tengan
correlaciones demasiado altas.
o Para comprobarlo: Prueba de rachas o aleatoriedad. Estadístico D de Durbin-Watson, que prueba la no
correlación lineal entre residuos. Ji-cuadrado, para la independencia de los residuos.
HOMOCEDASTICIDAD. Los residuos tienen varianza constante. La hipótesis sería  H0:σ12= σ12=…= σm2 o que tiene
varianza constante. H1: σi2 ≠ σj2 alguna varianza diferente. Si no se cumple hay que cambiar la escala de las variables.
o Para comprobar: prueba F-Max de Heartley. Prueba Q de Cochran. Prueba de Barlett. Prueba de Levene.

46

También podría gustarte