Está en la página 1de 14

Estadística descriptiva

Botella – Cap. 1: Conceptos generales


La estadística es la ciencia que se ocupa de la ordenación y análisis de datos procedentes
de muestras, y de la realización de inferencias acerca de las poblaciones de las que éstas
proceden. Clásicamente la estadística se ha dividido en dos partes, la estadística
descriptiva y la estadística inferencial. Para hacer un estudio inferencial primero hay que
hacer un estudio descriptivo de los datos. Es decir, un estudio descriptivo se agota en la
descripción, mientras que uno inferencial comienza por la descripción y luego aborda la
inferencia (deducción).
 ESTADÍSTICA DESCRIPTIVA: Es la parte de la Estadística que proporciona métodos
para organizar, representar, resumir y analizar la información contenida en un
conjunto de datos muéstrales o poblacionales.
 ESTADÍSTICA INFERENCIAL: Es la parte de la Estadística que proporciona métodos
para extraer conclusiones sobre las poblaciones a partir de sus muestras
controlando el margen de error que se puede cometer en esa extrapolación de lo
muestral a lo poblacional. Los métodos de inferencia estadística se agrupan
fundamentalmente en dos clases: Estimación de parámetros y Contraste de
hipótesis.
Distinción entre estadística teórica y estadística aplicada: La primera se dedica al estudio
de los métodos formalmente válidos para la realización de inferencias. La segunda se
dedica a la aplicación de esos métodos y modelos de actuación a campos reales. Cualquier
trabajo en el que se aplica la estadística se refiere a un conjunto de entidades, conocido
con el nombre de población.
Se llama población estadística al conjunto de todos los elementos que cumplen una o
varias características o propiedades.
A los elementos que componen una población se les denomina entidades estadísticas o
individuos. Dependiendo del número de elementos que la compongan, la población puede
ser finita o infinita. La mayor parte de las poblaciones con las que solemos trabajar son
finitas, pero tan numerosas que a la hora de hacer inferencias acerca de ellas se pueden
considerar infinitas a efectos prácticos. Cuando un investigador aborda un trabajo
empírico debe definir claramente la población sobre la cual se interesa. La población ha de
ser el marco o conjunto de referencia sobre el cual van a recaer las conclusiones e
interpretaciones, y éstas no pueden exceder ese marco. El hecho de que las poblaciones
sean, por lo general, muy numerosas, suele hacer inaccesible la descripción de sus
propiedades. De ahí que se trabaje fundamentalmente con muestras.
Una muestra es un subconjunto de los elementos de una población. La muestra nos va a
ofrecer una serie de datos que podemos ordenar, simplificar y describir. Pero el objetivo
fundamental es el poder describir la población de partida mediante lo que podamos
encontrar en la muestra. Y para poder extraer esas conclusiones lo más importante es que
las muestras de observaciones sean representativas. Para favorecer la representatividad
de las muestras, la llamada Teoría de Muestreo ha desarrollado diversidad de métodos.
Uno de ellos es la elección al azar de las unidades muéstrales.
Las poblaciones pueden caracterizarse a partir de unas constantes denominadas
parámetros. Como normalmente los parámetros son desconocidos, una de las tareas de la
estadística es la de hacer conjeturas lo más acertada posibles acerca de esas cantidades.
Para ello se utilizan cantidades análogas obtenidas en las muestras, que se denominan
estadísticos.
Un parámetro es una propiedad descriptiva de una población. Por ejemplo, si la variable
es el tiempo de reacción de sujetos entrenados ante un estímulo, un parámetro es el
tiempo promedio de reacción de todos los individuos de la población de interés si éstos
fueran entrenados (éste es un ejemplo de población hipotética). Nótese que al promediar
todos los valores de la población se obtiene un único valor, fijo para la población. Letras
griegas.
Un estadístico es una propiedad descriptiva de una muestra. Por ejemplo, tiempo
promedio de reacción de 10 individuos que fueron entrenados. Porcentaje de
consumidores entre 100 encuestados que manifestaron tener una actitud positiva frente
al producto. Letras latinas.
Cuando estudiamos las entidades que conforman una población nos interesamos por
algunas de las propiedades de sus elementos, y esas propiedades adoptan distintas
variedades.
Una característica es una propiedad o cualidad de un individuo. Una modalidad es cada
una de las maneras como se presenta una característica.
Medición: La estadística no realiza sus funciones directamente sobre las modalidades
observadas, sino que éstas se representan por números, y la estadística realiza sus
funciones sobre esos números. Se llama medición al proceso de atribuir números a las
características.
El objetivo de la medición de una característica es conectar un sistema relacional empírico
y un sistema relacional numérico, de tal forma que las relaciones entre las entidades se
reflejen en las relaciones entre los números que los simbolizan. Sólo si se consigue este
objetivo ocurrirá que de las relaciones entre los números podrán hacerse inferencias
válidas acerca de las relaciones entre las entidades. Por ejemplo: las modalidades que
adopta la variable estatura son tales que se podría decir que una determinada modalidad
es una estatura superior a otra determinada modalidad. Pues bien, los números que se
atribuyan a esas modalidades en el proceso de medición deben reflejar esa superioridad.
Por el contrario, lo único que podemos decir al comparar las modalidades de dos
individuos en la variable sexo es si esas modalidades son la misma o no; no tiene sentido
decir que una de las modalidades supone tener más sexo que la otra.
Los modelos desarrollados para la medición se llaman escalas. Existen escalas cualitativas
nominales, cuasi cuantitativas ordinales, cuantitativas de intervalo y de razón. Se utiliza
una clase por cada una de las modalidades que adopta la característica que se está
estudiando. Las clases son mutuamente exclusivas y exhaustivas, es decir, cada
observación es incluida en una y sólo una clase.
 La escala cualitativa nominal: Es un tipo sencillo de medición, los números
asignados no se van a utilizar como tales, sino como simples códigos de
identificación. Sólo informan la igualdad o desigualdad en una característica. Por
ejemplo: el sexo, los diagnósticos psicopatológicos (neurosis, psicosis, psicopatías,
etc.).
 La escala cuasi cuantitativa ordinal: Consiste en la aplicación de números a las
diferentes cantidades, pero ahora de forma tal que los numero asignados a los
objetos reflejen los distintos grados en los que se presenta la característica.
Además de determinar si se pertenecen o no a la misma modalidad, pueden
establecerse relaciones de “mayor que” o “menor que”, puede decirse cuál de
ellos presenta en mayor magnitud la característica. Ejemplo: un individuo es más
extravertido que otro, que un niño es más hiperactivo que otro, o que el
aprendizaje es más rápido con el método A que con el método B.
 La escala cuantitativa intervalar: Cuenta con una unidad de medida. Se puede
extraer consecuencias acerca de la igualdad o desigualdad de diferencias. Se
realizan afirmaciones acerca de las diferencias de magnitudes. Las
transformaciones admisibles deben ser lineales. En el origen asignado a la escala,
los valores son arbitrarios. La principal limitación es que esta unidad de medida no
cuenta con un 0 absoluto. El 0 no representa la ausencia de esa característica.
 La escala cuantitativa de razón: Cumple con la función de preservar el significado
del valor 0, de forma tal que siempre represente la ausencia de esa característica.
La consecuencia de esto es que además de extraer conclusiones acerca de la
igualdad o desigualdad de diferencias, también puede hablarse de la igualdad o
desigualdad de razones. La única transformación posible es la de multiplicar por
una constante positiva, para preservar el 0. Por ejemplo: Longitud, peso.
Variable: En el proceso de medición se asignan números a los objetos según unas reglas, y
el conjunto de valores numéricos atribuidos a las modalidades de una característica
constituyen lo que llamamos variable estadística.
Una variable es una representación numérica de una característica.
Los valores atribuidos a las correspondientes modalidades de una característica permiten
diferenciar a los objetos, que varían entre sí en esa característica. Por el contrario, hay
veces que una característica tiene una única modalidad, en ese caso todas las entidades
estudiadas adoptarían el mismo valor numérico, y decimos que se trata de una constante.
Las variables pueden clasificarse de varias formas: las variables cuantitativas (sean de
intervalo o razón) pueden a su vez clasificarse en variables discretas y variables continuas,
en función del número de valores asumibles por ellas.
 Una variable discreta es aquella que adopta valores aislados. Por tanto, fijados dos
consecutivos, no puede tomar ninguno intermedio. Ejemplo: hijos de las familias
españolas.
 En las variables continuas entre dos valores cualesquiera, por próximos que sean,
siempre pueden encontrarse valores intermedios. Ejemplo: la longitud, la duración
de los sucesos o el peso.
Las variables estadísticas se simbolizan por letras mayúsculas latinas y con un subíndice
para distinguirlas de las constantes.
Botella - Cap. 2: Organización y representación de datos
Luego de obtener un conjunto de valores tomados en una o varias variables hay que
empezar por inspeccionar los datos. Cuando la cantidad de números recolectados es
demasiado grande, se hace difícil hacer una inspección directa que sea realmente
comprensiva. Por eso el primer paso suele consistir en reorganizar los datos. Un
instrumento para conseguir esa ordenación es la denominada distribución de frecuencias,
y a partir de ella es frecuente también construir representaciones gráficas.
Distribución de frecuencias: La distribución de frecuencias es un instrumento diseñado
para cumplir tres funciones:
a) proporcionar una reorganización y ordenación racional de los datos recogidos.
b) ofrecer la información necesaria para hacer representaciones gráficas
c) facilitar los cálculos necesarios para obtener los estadísticos muéstrales.
En ella aparecen varios elementos:
 Frecuencia absoluta: Es la cantidad de veces que se repite cada valor de la variable
en un conjunto de datos. La suma de las frecuencias absolutas es igual a la
totalidad de los datos.
 Frecuencias relativas: Se divide las frecuencias absolutas por la totalidad de los
datos. La suma de las frecuencias relativas es igual a 1.
 Frecuencia absoluta acumulada: Se suma para cada valor, su frecuencia absoluta
más la frecuencia absoluta acumulada del valor anterior. La suma acumulada es
igual al tamaño de la muestra.
 Frecuencia relativa acumulada: Se divide cada frecuencia absoluta acumulada por
el tamaño de la muestra.
Representaciones graficas: Las representaciones gráficas cumplen la función de dar
informaciones globales simplemente mirando.
 Diagrama de rectángulos: En el eje de abscisas se colocan las variables y en el eje
de ordenadas las frecuencias. Se levantan rectángulos todos de igual base y la
altura corresponde al valor de la frecuencia. Se suele utilizar para variables
ordinales, aunque también algunas nominales.
 Pictograma: Circulo de 360º. Se asigna un ángulo para cada valor de la variable. Se
utiliza en variables nominales.
 Diagrama de barras: Se utiliza para variables cuantitativas discretas. Se colocan los
distintos valores de la variable en el eje de abscisas y las frecuencias en el de
ordenadas. Se traza una barra cuya altura debe ser igual a la frecuencia.
 Histograma: Se utiliza para variables cuantitativas continuas con datos agrupados
en intervalos. En el eje de abscisas se colocan los límites exactos de los intervalos y
el de ordenadas las frecuencias. Sobre cada intervalo se levanta un rectángulo
cuya altura es igual a la frecuencia correspondiente.
 Polígono de frecuencias: Para variables discretas es la figura que resulta de unir los
extremos superiores de las que hubieran sido las barras. Si se trata de una
continua es lo mismo, pero referido a los puntos medios de las bases superiores de
los rectángulos del histograma. Se utiliza para la comparación de variables
cuantitativas.
 Diagrama de rectángulos adyacentes: Se utiliza para la comparación de variables
cualitativas o cuasi cuantitativas.

VARABLES:
 NOMINALES:
 DIAGRAMA DE RECTANGULO
 CUANTITATIVAS DISCRETAS
 DIAGRAMA DE BARRAS
 POLIGONO DE FRECUENCIAS
 DIAGRAMA DE BARRAS ACUMULADAS
 CUANTITATIVAS CONTINUAS
 HISTOGRAMA
 POLIGONO DE FRECUENCIAS
 PERFIL OCTOGONAL

PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS


Los conjuntos de datos de variables cuantitativas obtenidos en muestras, tienen algunas
características. Son cuatro:
Tendencia central: se refiere a la magnitud general de las observaciones hechas. Esta
magnitud general puede cuantificarse mediante unos índices conocidos como índices de
tendencia central o promedios y que reciben ese nombre porque pretenden ser síntesis
de los valores de la variable.
Variabilidad: esta propiedad se refiere al grado de concentración de las observaciones en
torno al promedio. Una distribución será homogénea o poco variable si los datos difieren
poco entre si, y por tanto, se agolpan en tono a su promedio. Será heterogénea o muy
variable si los datos se dispersan mucho con respecto al promedio. Esta propiedad es
independiente de la anterior, es decir, dos grupos que tengan distinta variabilidad pueden
tener tendencias centrales muy distintas o similares.
Asimetría o sesgo: esta propiedad se refiere, por tanto, al grado en que los datos tienden
a concentrarse en los valores centrales, en los valores inferiores al promedio, o en los
valores superiores a éste. Existe simetría perfecta cuando en caso de doblar la
representación gráfica por una vertical trazada sobre la media, las dos mitades se
superponen perfectamente.
Curtosis: se refiere al grado de apuntamiento de la distribución de frecuencias. Si es muy
apuntada, se llama leptocúrtica, y si es muy aplastada, se llama platicúrtica. Generalmente
el grado de curtosis de una distribución se compara con un modelo de distribución
llamado distribución normal, y que respecto a la curtosis se llama distribución
mesocúrtica.

Botella - Cap. 3: Medidas de posición


Las medidas de posición son índices diseñados para revelar la situación de una puntuación
con respecto a un grupo.
Un tipo de ella, son las medidas de tendencia central y las medidas de posición más
generales son los llamados cuantiles.

Centiles o percentiles: Son 99 valores de la variable que dividen a la distribución en 100


secciones, cada una conteniendo a la centésima parte de las observaciones. “Se simboliza
por C28 a aquella puntuación que deja por debajo de si al 28 por 100 de las observaciones
y que es superada por el 72 por 100”. Dado que los valores correspondientes a los centiles
se determinan en función de los porcentajes de observaciones, normalmente las
distancias entre ellos, en términos de puntuación, no serán constantes. Generalmente las
distancias entre los centiles intermedios serán menores que las distancias entre centiles
extremos. Los centiles no suelen calcularse con cantidades de pequeños datos, y cuando
es necesario hacerlo se obtienen sencillamente ordenando las puntuaciones y calculando
la proporción de éstas que superan al valor que se quiere comparar. Normalmente los
centiles se obtienen sobre datos agrupados en intervalos, y en su cálculo se asume el
supuesto de distribución homogénea intraintervalo. El centil setenta es, por definición,
aquella puntuación que deja por debajo de si al 70 por 100 de las observaciones y es
superada por el 30 por 100 de ellas. Como se trata de un grupo de 200 observaciones, el
70 por 100 son 140; por lo tanto, buscamos aquella puntuación que deja por debajo a 140
observaciones, y por encima a las otras 60. Las puntuaciones que dejan por debajo a esas
cantidades de observaciones, son los límites exactos superiores de los intervalos

Otros cuantiles son:


Deciles: Son nueve puntuaciones que dividen a la distribución en 10 partes, cada una
conteniendo al 10 por 100 de las observaciones. Se representa por Dk, donde k indica el
número del decil al que se refiere. Así, el decil cuarto, es la puntuación que deja por
debajo de si al 40 por 100 de las observaciones y por encima de si al 60 por 100.

Cuartiles: Son tres puntuaciones que dividen a la distribución en cuatro partes, cada una
conteniendo al 25 por 100 de las observaciones. Se representan por Qk donde k indica el
número del cuartil al que se refiere.
Botella Cap. 4 – Medidas de tendencia central.
Las medidas de posición permiten comparar una puntuación con aquellos valores que
ocupan ciertas posiciones especiales en un grupo de referencia. De todas esas posiciones
hay una, la que representa la posición central, que suele suscitar un mayor interés que las
demás, las medidas de tendencia central. Son índices que actúan como resúmenes
numéricos de las observaciones hechas. Representan la magnitud general observada en
los valores. También sirven para comparar conjuntos de valores. Dado que no se pueden
comparar distribuciones completas, lo que se comparan son ciertas características
resumen de éstas.

MEDIA ARITMÉTICA: El índice de tendencia central más utilizado. Se define como la suma
de los valores observados, dividida por el número de ellas.

Propiedades de la media:
 Con las puntuaciones diferenciales se puede dar información más precisa. Y su
suma es igual a 0. Esto sucede porque algunas son positivas y otras negativas,
entonces se compensan. La suma de las puntuaciones diferenciales es igual a cero
 La suma de los cuadrados de las desviaciones de más puntuaciones con respecto a
su media es menor que con respecto a cualquier otro valor.
Si sumamos una constante a un conjunto de puntuaciones, la media quedará
aumentada en esa misma constante.
 Si multiplicamos por una constante a un conjunto de puntuaciones, la media
quedará multiplicada por la misma constante.
 La media total de un grupo de puntuaciones, cuando se conocen los tamaños y
medias de varios subgrupos hechos a partir del grupo total, puede obtenerse
ponderando las medias parciales a partir de los tamaños de los subgrupos en que
han sido calculadas.
 Una variable definida como la combinación lineal de otras variables tiene como
media la misma combinación lineal de las medias de las variables intervinientes en
su definición.
MEDIANA: Es el índice, la puntuación que es superada por la mitad de las observaciones
pero no por la otra mitad. Para su cálculo podemos encontrarnos en dos casos generales,
aquel en el que contamos con un número impar de observaciones y aquel en que nos
encontramos con un número par de ellas. En el primero se toma como mediana el valor
central, en el segundo se da la circunstancia de que cualquier valor comprendido entre los
dos centrales cumple con la definición de la mediana.
MODA: Una tercera vía para representar la tendencia central de un conjunto de valores
consiste en informar del valor más frecuentemente observado. En esta idea se basa
nuestro tercer índice de tendencia central, la moda, que se representa por Mo, y se define
sencillamente como el valor de la variable con mayor frecuencia absoluta.
Para obtenerla se ordenan los valores de menor a mayor para la identificación de la mayor
frecuencia.
 Si todos los valores tienen la misma frecuencia, es una distribución amodal.
 Si hay 2 valores con la misma frecuencia, la distribución es bimodal
 Si comparten 2 valores la misma frecuencia, pero son valores adyacentes, se toma
como moda a la media de esos 2 valores.
 Si hay una distribución de frecuencias se toma como moda el punto medio del
intervalo con mayor frecuencia.
COMPARACIÓN: ¿Con qué criterios elegimos uno sobre los demás para representar la
magnitud general observada en unos valores o para comparar la de dos o más grupos de
valores? Si no hay ningún argumento de peso en contra, se preferirá siempre la media.
Hay dos razones para apoyar esta norma general. La primera es que en ella se basan otros
estadísticos y la segunda es que es mejor estimador de su parámetro que la mediana y la
moda. Este segundo argumento significa que, en términos generales, las medias halladas
sobre muestras representativas se parecen más a la media poblacional que lo que se
parecen las medianas y modas muéstrales a la mediana y la moda poblacional.
Hay al menos tres situaciones en las que se preferirá la mediana a la media:
a) Cuando la variable esté medida en una escala ordinal;
b) Cuando haya valores extremos que distorsionen la interpretación de la media y
c) Cuando haya intervalos abiertos.
Este tercer y último caso se refiere a situaciones en las que el intervalo superior carece de
límite superior, el intervalo inferior carece de límite inferior, o ambas cosas a la vez.
La mediana será la segunda candidata para representar la tendencia central y por tanto, si
no hay argumentos de peso en contra, se preferirá la mediana a la moda. Pero hay al
menos dos situaciones en las que se dará esa preferencia:
a) Cuando se trate de una variable medida en una escala nominal,
b) Cuando haya intervalos abiertos y la mediana pertenezca a uno de ellos.
En algunos casos los tres índices de tendencia central dan valores parecidos, o incluso
pueden coincidir exactamente.

Botella - Cap. 5: Medidas de variación.


Para conseguir una visión completa y comprensiva de los datos hay que complementar las
medidas de tendencia central con las de otras propiedades de los mismos. Una de las
propiedades más importantes de los conjuntos de datos es el grado en que éstos se
parecen o se diferencian entre sí. Esta propiedad se denomina variabilidad, dispersión u
homogeneidad, y es diferente de la tendencia central.
Varianza y desviación típica
Una idea que se ha demostrado útil a las hora de cuantificar la variabilidad es la de
trabajar con las distancias desde los valores hasta algún poste central, que podría ser la
media aritmética. Sin embargo también vimos en el tema anterior que la suma de las
diferenciales es necesariamente igual a cero. Una solución al problema de que las
distancias con respecto a la media sumen cero consiste en elevar al cuadrado esas
distancias antes de hallar su promedio, dado que los cuadrados son siempre positivos. El
índice basado en esta idea se llama varianza, y se representa por la expresión S2x, Cuando
se quiere describir el grado de variabilidad de un grupo de valores basta con obtener este
índice.
La varianza sirve sobre todo para comparar el grado de dispersión de dos o más conjuntos
de valores en una misma variable, llegando a conclusiones como la siguiente: “la
población de hombres presenta una mayor variabilidad en su estatura que la población de
mujeres, que son más homogéneas en esa característica”
Para retomar las unidades originales de las distancias anteriormente elevadas al cuadrado,
se calcula la raíz cuadrada de la cantidad obtenida. Al índice hallado se lo denomina
desviación típica. Se define como la raíz cuadrada de la varianza y se representa como S x.

Es un mejor descriptor de la variabilidad, aunque la varianza es idónea para basar en ella


los análisis estadísticos complejos.
La variabilidad de los datos refleja el hecho de las diferencias individuales y éstos son
objeto de estudio de la psicología.
Si el poste central utilizado para hallar las distancias no es la media, se ha propuesto la
mediana.
Otra alternativa es la cuasi-varianza. Comparte el mismo numerador que la varianza y
tienen una relación directa.

PROPIEDADES:
 En primer lugar, hay que destacar que un conjunto de valores puede mostrar un
mayor o menor grado de homogeneidad, pero el grado más pequeño posible de
homogeneidad se produce cuando todos los valores son idénticos. En ese caso las
desviaciones de los valores con respecto a su media son todas cero y en
consecuencia también es igual a cero la media de sus cuadrados, por tanto, ése es
el mismo valor que puede adoptar la varianza. Igualmente, como desviación típica
se toma la raíz positiva de la varianza.
 Para sumarle una constante a las puntuaciones observadas no hace falta calcular la
varianza de las puntuaciones transformadas, sino que se deduce conociendo la
varianza de las puntuaciones originales, es decir, su varianza no se altera.
 Si se quiere multiplicar una constante, la varianza se altera, quedará multiplicada
por el cuadrado de la constante y la desviación típica por el valor absoluto de esa
constante.
 La varianza total de un grupo de puntuaciones cuando se conocen los tamaños, la
medias y las varianzas de varios subgrupos hechos a partir del grupo total,
mutuamente exclusivos y exhaustivos, puede obtenerse sumando la media
(ponderada) de las varianzas y la varianza (ponderada) de las medias.

Botella - Cap. 7: Medidas de asimetría y Curtosis


El grado de asimetría de una distribución hace referencia al grado en que los datos se
reparten equilibradamente por encima y por debajo de la tendencia central. Una
distribución equilibrada sería aquella en que las frecuencias se repartiesen
imparcialmente en torno a la media.
Hay 3 tipos de distribución: Simétrica, Asimétrica positiva y asimétrica negativa.
El primer índice se basa en la Relación entre la media y la moda: se define como la
distancia entre la media y la moda, medida en desviaciones típicas, es decir: la media es
inferior a la moda, y por tanto este índice dará un valor negativo; la media es superior y el
índice dará positivo; coinciden los dos índices de tendencia central y por tanto el índice de
asimetría dará cero. Las distribuciones como las primeras tienen asimetría negativa y el
índice da valores menores que cero; las del segundo tipo asimetría positiva, y este índice
da valores mayores que cero. En las últimas se dice que son distribuciones simétricas,
puesto que no están inclinadas hacia ningún lado; este índice da en ellas valores en torno
a cero y si la simetría es perfecta entonces da exactamente cero. Sólo se puede calcular en
distribuciones unimodales.

Un segundo índice es la asimetría de Pearson, es igual al promedio de las puntuaciones


típicas elevadas al cubo. Su interpretación es igual al nivel anterior, los valores menores a
cero indican asimetrías negativas, los mayores a cero asimetrías positivas y los valores
entorno a cero indican distribuciones aproximadamente simétricas.
El índice de asimetría intercuartílico, se basa en los cuartiles. Se basa, en los cuartiles 1. La
interpretación es similar a la de los índices anteriores. Los valores mayores de cero indican
asimetría positiva, los menores indican asimetría negativa y los valores en torno a cero
reflejan distribuciones simétricas. Tienen una ventaja sobre los índices anteriores, y es que
tiene un valor máximo y mínimo con lo que se facilita su interpretación en términos
relativos.
Índice de Curtosis: Concentracion de los datos / Asimetria: Distribucion de los datos
Se basa en el promedio de las típicas elevadas a la cuarta potencia.
Se le resta un 3 al índice porque lo que se consigue es utilizar ese modelo como patrón de
comparación.
Una distribución en la que el índice es igual a cero, tiene un grado de Curtosis similar al de
la distribución normal, es mesocúrtica.
Si su apuntalamiento es positivo, es mayor que el de la distribución normal, es
leptocúrtica.
Si es negativo su apuntalamiento, es menor que la distribución normal, es platicúrtica.

Asimetría (la ubicación de los datos en relación a la media)

1
Cuartiles: son tres puntuaciones que dividen a la distribución en cuatro partes, cada una conteniendo al 25
por 100 de las observaciones.
 ASIMETRIA + (la curva esta para la izquierda y la colita de la curva para la derecha)
 SIMETRIA (Los datos están repartidos de manera pareja centrados en la media)
 ASIMETRIA – (la curva esta para la derecha y la colita de la curva para la izquierda)

Curtosis (nos da la forma de la curva)


 LEPTOCURTOSIS (la mayoría de los valores están en relación a la media y la curva
es alta)
 MESOCURTOSIS (cuando la distribución esta mejor distribuida y la curva es más
baja)
 PLATICURTOSIS (la distribución esta distribuida para la izquierda y para la derecha)

CAPÍTULO 8: Correlación lineal


La correlacion es el análisis de la relación entre variables. Hay tres tipos; la directa (ambas
variables suben o bajan), inversa (una variable baja y la otra sube o viceversa) y la nula (no
hay relación, los valores se dispersan)
PROPIEDADES DEL COEFICIENTE DE CORRELACION DE PEARSON
R DE PEARSON (todas las variables son de dist. NORMAL - cuantitativa)
(su hipótesis nula sostiene que NO hay relación entre las variables. Su hipótesis alternativa
sostiene que SI hay relación entre las variables)
Nivel de significancia: MAYOR A 0.05 NO HAY REL ENTRE LAS VARIABLES. Acepto la
hipótesis nula.
Nivel de significancia: MENOR A 0.05 HAY REL ENTRE LAS VARIABLES. Acepto la hipótesis
alternativa
Si el resultado me da que hay relación entre las variables tengo que establecer de qué
modo es la relación (DEBIL si esta próximo al “0” o FUERTE cuanto más próximo al “1” /
DIRECTA si las dos variables se mueven en el mismo sentido o INVERSA si se mueven en
diferente dirección. Ejemplo una aumenta y la otra baja.

También podría gustarte