Está en la página 1de 50

ANÁLISIS DE

DATOS

CARLA DURÀ MAS


FACULTAD DE PSICOLOGÍA
TEMA 1

CARLA DURÀ MAS


FACULTAD DE PSICOLOGÍA
TEMA 1. INTRODUCCIÓN AL ANÁLISIS DE DATOS.

1. ESTADÍSTICA

➢ Es una ciencia con base matemática

➢ Se ocupa de:

▪ Sistematización, recolección, ordenación y presentación de


los datos

▪ Deducir leyes

▪ Tomar decisiones y obtener conclusiones

2. INTRODUCCIÓN AL PLURALISMO METODÓLOGICO

¿QUÉ ES EL MÉTODO?

Etimológicamente, viene de la palabra METÁ (a lo largo) y ODOS (camino)

El método es cualquier manera de proceder o de hacer algo

Se estudia:

➢ Métodos
➢ Técnicas
➢ Estrategias
3. MÉTODO CIENTÍFICO

Es una metodología para obtener nuevos conocimientos. Su principal


característica es la de OBJETIVIDAD.

Consiste en:

➢ Observación sistemática
➢ Medición
➢ Experimentación
➢ Formulación, análisis y modificación de hipótesis
➢ Conclusiones.

Las fases fundamentales son:

➢ Observar un fenómeno y hacerse preguntas


➢ Formular una hipótesis
➢ Realizar un experimento para verificar la hipótesis
➢ Analizar resultados
➢ Conclusiones
➢ Repetición del experimento

4. INVESTIGACIÓN

La investigación es una actividad humana dirigida a descubrir algo


desconocido. Además, es científica si actúa según el método científico.

Tiene algunas cualidades como:

➢ Ser LÓGICA: proceso lógico


➢ Ser SÓLIDA: proceso riguroso
➢ Ser REPRODUCIBLE: tiene que ser contrastada
5. INERTIDUMBRE

Las preguntas nos producen incertidumbre. Tenemos un 5% de


probabilidad en equivocarnos y un 95% de probabilidad en acertar.

5% = alfa. 95% = 1- alfa

El análisis de datos es una herramienta muy importante para la


investigación:

➢ Saber sacar información relevante


➢ Se sabe la confianza que se merecen las conclusiones obtenidas

6. MÉTODO HIPOTÉTICO-DEDUCTIVO

Es uno de los modelos más usados para describir el método científico.


Está basado en el ciclo inducción-deducción-inducción para establecer
hipótesis y comprobar o refutarlas.

Los pasos son:

1) Observar el fenómeno → EMPÍRICO


2) Crear una hipótesis → RACIONAL
3) Deducir consecuencias o implicaciones de la hipótesis →
EMPÍRICO
4) Comprobar o refutar lo deducido → RACIONAL

MÉTODO INDUCTIVO:

Se caracteriza por realizar conclusiones generales a partir de premisas


particulares. → DE LO PARTICULAR A LO GENERAL. Es mejor para crear
nuevas teorías

La base de este método es la SUPOSICIÓN.


Además, intenta establecer una ley universal desde casos particulares
- Las ventajas:

• Se puede crear una ley general


• Se pueden estudiar los detalles

- Las desventajas:

• Cuando se usa de forma incompleta, hay objetivos que no


son estudiados en su totalidad (corre el riesgo de
generalizar de forma errónea)

MÉTODO DEDUCTIVO

Este método, a diferencia del anterior, trata de inferir algo observado a


partir de una ley universal. → DE LO GENERAL A LO PARTICULAR. Es
mejor para probar duchas teorías.

- Las ventajas:

• Puede llevar a encontrar principios desconocidos


• Puede ser usado para corregir errores

- Las desventajas.

• Puede usarse solo si se tiene un conocimiento completo


del objeto de investigación.

7. LÓGICA DEDUCTIVA E INDUCTIVA: PENSAMIENTO DE

ARISTÓTELES

Él afirmaba que la inducción fuera el procedimiento que del particular


conducía hacia el universal.
El conocimiento humano podía desarrollare en dos direcciones:

1) Tener un primer conocimiento sensitivo del particular y llegar


al universal

2) Partir del universal para ir hacia el particular, a través de la


deducción.

La inducción está representada como un hecho simple y la deducción


como un conector.

SILOGISMOS DEDUCTIVOS:

- Todos los hombres son animales


- Todos los animales son mortales
- Por tanto, todos los hombres son mortales

Lógica deductiva: A→B y B→ C entonces A→ C

SILOGISMOS INDUCTIVOS:

Ej.: se saca un puñado de alubias del saco y todas las alubias son
blancas. ¿Podemos deducir que todas las alubias de ese saco son
blancas? → No prueba nada, no representa un conector.

8. MOMENTOS DEL MÉTODO HIPOTÉTICO- DEDUCTIVO

❖ OBSERVACIÓN:

➢ Sistemática: programada con una finalidad


➢ Causal: de forma accidental
*La condición para que sea científica es que tiene que ser
CUANTIFICABLE

❖ FORMULACIÓN DE HIPÓTESIS:

*Para que sea científica, debe explicar la RELACIÓN SISTEMATICA entre


las variables intervinientes. Además, tiene que ser FALSABLE.

❖ COMPROBACIÓN O REFUTACIÓN DE HIPÓTESIS:

*Si es coherente → DEMOSTRADA PROVISIONALMENTE


*Si no es refutada → TEORÍA
*Si se consolida con otros experimentos → LEY NATURAL

❖ REPETICIÓN DEL EXPERIMENTO:

*Para que sea científico, tiene que repetirse.


*La reproducidad se refiere a la capacidad de repetir un experimento en
diferentes situaciones.

9. HIPÓTESIS

Deben ser falsables experimentalmente → ACEPTADAS O RECHAZADAS

*Popper dice que cuando una teoría queda corroborada, es aceptada


provisionalmente pero no verificada.

10. PLURALIDAD DE MÉTODOS

El objetivo de la investigación está sujeto a modificaciones y el


investigador tiene que adecuar sus métodos de investigación a
aquello que quiere investigar, a partir de una PLURALIDAD DE
MÉTODOS.
11. NIVELES DE INDAGACIÓN

1) NIVEL DESCRIPTIVO U OBSERVACIONAL (especifica cómo son las


cosas de modo univariante)
2) NIVEL CORRELACIONAL/RELACIONAL (aborda la relación entre
dos o más variables)
3) NIVEL EXPLICATIVO O INFERENCIAL (comparación entre grupos o
establecimiento de relaciones causa-efecto)

NIVEL DESCRIPTIVO

Intenta dar respuesta a ¿CÓMO SON LAS COSAS?

Se obtiene información de algo desconocido. Se encarga de puntualizar


las características de la población que se está estudiando.

El ANÁLISIS UNIVARIANTE trata de analizar los datos de la forma más


sencilla posible, dónde los datos solo tienen una variable. Describe los
datos para encontrar los patrones que existen en ellos.

NIVEL RELACIONAL

Intenta dar respuesta a ¿CÓMO UNAS COSAS SE RELACIONAN CON


OTRAS?

Se obtiene información acerca la relación de los fenómenos y en qué


medida están relacionados.

Nos permite predecir unos fenómenos a partir de otros sin haber


relación causal.

Cuando hay dos variables→ CORRELACIÓN DE PEARSON

➢ Normalidad
➢ Paramétricas → Pearson
➢ No paramétricas → Spearman

NIVEL EXPLICATIVO

Intenta dar respuesta a ¿POR QUÉ LAS COSAS SON COMO SON?

En este nivel es posible establecer relaciones causales entre los


factores. Se hace mediante EXPERIMENTOS.

12. VARIABLES

Es cualquier característica de un objeto que puede ser medido


directa o indirectamente. Tiene que ser medible y cuantificable y se
presentan bajo diferentes valores.

VARIABLE INDEPENDIENTE

• Son aquellas utilizadas para explicar o predecir otras variables.

• Su valor no depende de otra variable

• Se representa mediante la X

• Es la variable manipulada en un experimento

VARIABLE DEPENDIENTE

• Su comportamiento se pretende explicar o predecir en función de


una o más variables independientes

• Es el evento que se espera que cambie cuando se manipula la VI.

• Se representa por Y
VARIABLE EXTRAÑA

• Tiene algún efecto sobre la variable dependiente, así que deben


estar controladas si queremos asegurarnos de que los efectos
observados en la VD son únicamente causados por VI.

• Se controlan mediante la ALEATORIZACIÓN

• Es representada por la Z

Hay diferentes tipos de relaciones:

o RELACIÓN ESPURIA: existe una relación entre X e Y porque no se ha


tenido en cuenta a la Z, que es la responsable de que exista esa
relación.

o RELACIÓN MEDIACIONAL: la VI se relaciona de manera indirecta con


la VD. X tiene un efecto sobre Z y Z sobre Y.

o RELACIÓN MODERADA: la relación entre X y Y depende de la Z

13. CONDICIONES DE UN EXPERIMENTO

A) VALIDEZ INTERNA: garantizar que los cambios observados en la


variable dependiente hayan sido producidos por la variable
independiente.

B) VALIDEZ EXTERNA: garantizar que los resultados obtenidos se


puedan generalizar
14. TIPOS DE VARIABLES SEGÚN SU ESCALA DE
MEDIDA

❖ VARIABLES CUALITATIVAS (no métricas): expresan cualidad

➢ Nominales: no siguen un orden


➢ Ordinales: siguen un orden
➢ Binarias: solo permiten dos valores (o blanco o negro)

❖ VARIABLES CUANTITATIVAS (métricas): expresan cantidad

➢ Discretas: solo pueden tener números enteros


➢ Continuas: pueden adquirir cualquier tipo de partición.
➢ Escalas: de intervalo (cualquier valor del intervalo) o de razón
(cuenta con un 0, sin valor negativo)

15. DISEÑOS DE INVESTIGACIÓN

Dependiendo del fenómeno que queramos estudiar y el nivel de


comprensión que nos propongamos obtener del mismo, la recogida de
datos se puede realizar mediante metodologías que implican distinto
grado de control:

❖ OBSERVACIONAL:

➢ Variables no controladas
➢ Solo permiten ser observadas
➢ Investigación de tipo descriptivo

▪ Transversales: recopila datos en un momento concreto durante


en proceso
▪ Longitudinales: se desarrolla en un largo periodo de tiempo
➢ Ventaja: permite observar la evolución de los procesos estudiados
➢ Desventaja: resultados superficiales

❖ CUASIEXPERIMENTAL:

➢ Se observa el fenómeno
➢ Se pueden controlar algunos aspectos
➢ Tiene un grado intermedio de control
➢ Investigación de tipo relacional
➢ No se seleccionan los grupos de forma aleatoria
➢ Desventaja: hay un menor control en las variables extrañas

❖ EXPERIMENTAL:

➢ Manipulación de variables
➢ Máximo grado de control
➢ Determina relaciones causa-efecto
➢ Investigación de tipo explicativo

16. PRETEST-INTERVENCIÓN POSTEST

Es el primer registro que yo cojo como muestra de partida.

Ej.: TEST:

-Buena alimentación: variable independiente

-Conocimiento sobre la alimentación: variable dependiente

PRETEST INTERVENCIÓN POSTEST RETENCIÓN

G. COTRL test -------------------- test Si ha


mejorado
G. EXPER test Clases de test Si ha
alimentación empeorado
TEMA 2

CARLA DURÀ MAS


FACULTAD DE PSICOLOGÍA
TEMA 2: ESTADÍSTICA DESCRIPTIVA

1. ¿QUÉ ES?

La estadística descriptiva es, junto con la estadística inferencial y


relacional, una de las tres grandes ramas de la estadística. Trata de
describir algo de manera cuantitativa.

Trata de recoger datos, almacenarlos, realizar tablas y gráficos que nos


ofrezcan información sobre un determinado asunto.

Los tipos de variables estadísticas son:

➢ Variable cualitativa (cualidad)


➢ Variable cuantitativa (cantidad)

2. PARÁMETROS ESTADÍSTICOS BÁSICOS

Tienen el objetivo de resumir la información y hay diversas formas que


ofrecen medidas de un determinado tipo:

➢ Información sobre el CENTRO


➢ Información sobre la POSICIÓN DE UN VALOR
➢ Información sobre la DIMENSIÓN O VARIABILIDAD
➢ Información sobre la FORMA

1) CENTRALIZACIÓN → media, mediana y moda

2) POSICIÓN → cuartiles, percentiles, deciles

3) DISPERSIÓN → rango, varianza, desviación estándar, coeficiente


de variación, rango intercuartílico.
4) FORMA → asimetría y apuntamiento o curtosis

3. ESTADÍSTICOS DE CENTRALIDAD

La MEDIA es la media aritmética de los valores de una variable → suma


de los valores dividido por el total

La MEDIANA es un valor que divide a las observaciones en dos grupos


con el mismo número de individuos.

*Ej.: la mediana de 1, 2, 3, 4, 5, 6, 7, 8 es 5

La MODA es el valor donde la distribución de frecuencia alcanza un


máximo.

*Ej.: la moda de 1,2,3,4,5,6,6,8,9 es 6

4. DISTRIBUCIÓN DE FRECUENCIAS

La FRECUENCIA ABSOLUTA es el número total de veces que se repite


un dato (fi)

La FRECUENCIA RELATIVA es la fracción del total que se repite un dato


(hi)
La FRECUENCIA ACOMULADA puede ser relativa acumulada (Hi) o
absoluta acumulada (Fi).

FRECUENCIA ABSOLUTA

Es una medida estadística que nos da información acerca de la


cantidad de veces que se repite un dato. Se representa mediante fi

FRECUENCIA RELATIVA

Es una medida estadística que se calcula como el cociente de


frecuencia absoluta de algún valor de la muestra entre el número
total de valores que componen la muestra (N)

hi= fi / N → es siempre positiva

FRECUENCIA ABSOLUTA

Es el resultado de sumar sucesivamente las frecuencias absolutas y


relativas.

5. DISTRIBUCIÓN DE FRECUENCIA POR INTERVALOS

La distribución de frecuencias agrupadas o “tabla de datos agrupados”


se emplea si las variables toman un número grande de valores.

La finalidad de las agrupaciones en frecuencias es facilitar la obtención


de la información que contienen datos.

Los grupos son denominados CLASES y a cada clase se le asigna su


frecuencia correspondiente.
6. MEDIA

La fórmula de la media aritmética ponderada es:

6.1 MEDIA PARA DATOS NO AGRUPADOS

Es muy sensible a cambios y valores extremos en los datos.

Si estos son la totalidad de datos que interesan en el estudio →


POBLACIÓN

Si solo es una parte para obtener información → MUESTRA

6.2 MEDIA PARA DATOS AGRUPADOS

No se conocen los valores de todas las variables, solo se conoce los


extremos del rango. Se usa el valor medio del intervalo.
7. MODA

Es el valor que se observa con la frecuencia más alta. Cuando hay dos
datos con la frecuencia máxima, la distribución se llama BIMODAL.

7.1 MODA: DATOS AGRUPADOS

La clase modal es la clase en la que se concentra la frecuencia más


alta.

El cálculo de la moda por INTERPOOLACIÓN es la que la moda se


desplaza más hacia la clase contigua con mayor frecuencia.

La fórmula es:

Hay que identificar el intervalo modal →


intervalo que posee la frecuencia
absoluta más alta.
Partes de la fórmula:

• Límite inferior (Li)→ límite inferior del intervalo modal


• Frecuencia absoluta (fi)
• fi-1 → frecuencia absoluta anterior al intervalo modal
• fi+1 → frecuencia absoluta siguiente al intervalo modal
• A → amplitud del intervalo modal.

8. MEDIANA

Es el valor central de una serie de datos ordenados. Los valores son con
porcentajes. Representa el cuartil 2 (Q2)

Representa el 50% de los valores de una mediana y el 50% restante de


la otra mediana.

La fórmula con la frecuencia relativa es:

Cuando tenemos las frecuencias absolutas acumuladas, la fórmula es:


9. HISTOGRÁMA PARA DATOS AGRUPADOS

Sirve para ver cómo se distribuyen los valores de la variable en estudio.


Es una representación gráfica de una variable en forma de barras.

10. ESTADÍSTICOS DE POSICIÓN

Se trata de medidas que dan cuenta de una determinada posición


dentro de la distribución de los datos. Se representa en porcentajes

DATOS NO AGRUPADOS:

DATOS AGRUPADOS:

Se representa mediante una fórmula que representa porcentajes.


*Lo utilizo cuando para un valor concreto de mi variable quiero asignar
una frecuencia acumulada

10.1 CUARTILES, DECILES Y PERCENTILES

Los CUARTILES dividen la muestra en 4 grupos con frecuencias


similares. Se ordenan de mayor a menor todos los datos. Cada cuartil
contiene el 25% de los datos.

• Cuartil 1 → Percentil 25
• Cuartil 2 → Percentil 50
• Cuartil 3 → Percentil 75

Los DECILES dan los valores correspondientes al 10%, 20%,…, 90% de


los datos

Los PERCENTILES son los estadísticos que dividen la sucesión de datos


ordenados en cien partes proporcionalmente iguales. Valores
correspondientes a 1%, 2% y al 99% de los datos.

Decil 5 → Percentil 50 → Cuartil 2 → Mediana

CUARTILES:

El Q1 → N*1 / 4 → 25% por debajo y 75% por arriba

El Q2→ N*2 / 4 → 50% por debajo y 50% por arriba → Mediana (Me)

El Q3 → N*3 / 4 → 75% por debajo y 25% por arriba

La fórmula para cuartiles para datos agrupados es:


DECILES

Son números que dividen la sucesión de datos ordenados en diez


partes porcentuales iguales.

Los deciles se denotan en D1, D2, D3…

La fórmula para cuando hay datos agrupados es:

*Para ver cuál es, mirar la frecuencia acumulada (Fi).

PERCENTILES

Son números que dividen la sucesión de datos agrupados en cien


partes porcentuales iguales.

Los percentiles se denotan en P1, P2, P3…

La fórmula para cuando hay datos agrupados es:

REPASO CUARTILES, DECILES Y PERCENTILES:

EQUIVALENCIAS: P75=Q3; P50=Q2; P25=Q1


EQUIVALENCIAS: ME=P50=D5=Q2
11. DIAGRAMA DE CAJA Y BIGOTES

Con los cuartiles se construye un gráfico especial. Nos permite observar


qué tan dispersos están los datos respecto a la mediana, con respecto
al Q1 y al Q3.

También, nos permite determinar la existencia de valores atípicos


dentro de la muestra. Para identificarlos se calculan los límites
admisibles inferior y superior.

Podemos sacar la dispersión de los datos de una variable, ya que si el


rango de los datos es muy grande, se verán más separados y viceversa.

Se pueden ver:

• Si los datos son asimétricos


• Cuan estrechamente se agrupan los datos
• Si los datos están dispersos y en qué dirección
• Si hay valores atípicos y cuáles son sus valores.

12. MEDIDAS DE DISPERSIÓN

El rango intercuartílico es una medida de dispersión. Tiene sentido


cuando va acompañado de la mediana.

Se calcula con Q3-Q1.

Dependiendo de los datos, es:

• Paramétricos (media) y la desviación típica


• No paramétricos (mediana) (rango intercuartílico)
12.1 ESTADÍSTICOS DE VARIABILIDAD (DISPERSIÓN)

Una medida de dispersión nos determina el grado de acercamiento o


distanciamiento de los valores de una distribución respecto a la
media. Indica por medio de un número si los diferentes valores de una
variable están muy alejados de la media.

Esta medida de dispersión que considera todos los datos se llama


Varianza (Variabilidad).

VARIANZA

Es una medida de dispersión de la población, y se denota con el cuadrado


de la letra griega sigma ().

Es sensible a valores extremos (alejados de la media) y sus unidades


son el cuadrado de las de la variable.

La fórmula es:
DESVIACIÓN ESTÁNDAR (TÍPICA)

La medida de dispersión de la muestra se denota con el cuadrado de la


letra s y se llama Desviación Estándar.

Es la raíz cuadrada de la varianza.

La fórmula es:

COEFICIENTE DE VARIACIÓN:

Para aprovechar al máximo la desviación estándar, se puede calcular el


coeficiente de variación, que es un número adimensional (sin unidad de
medida).

La fórmula es:

Se emplea cuando hay una escala donde no hay negativos. Sirve para
comparar diferentes distribuciones y comprender cuál es la más
variable.

No puede haber ni números negativos ni 0.

Son comparables entre sí.


13. DISTRIBUCIÓN NORMAL

La distribución normal es una distribución de probabilidad que se


utiliza para describir variables continuas que tienden a concentrarse
alrededor de un valor promedio.

Cuando tenemos un gran número de datos, éstos se suelen ajustar a la


curva roja con forma de campana. CUANDO CUBREN LA CURVA NORMAl,
CUBREN LA NORMALIDAD.

Si la media=mediana=moda → Simétrica

*Debajo de la curva roja está el 100% de la población.

• En el eje horizontal→ medidas realizadas


• En el eje vertical → frecuencia
• En la distribución normal → observaciones frecuentes para datos
centrades de la curva
• En la distribución normal → observaciones más alejadas del centro
son los valores que ocurren con menos frecuencia

La curva de distribución normal es una campana simétrica cuya forma y


posición depende de dos parámetros:

•  → media poblacional
•  → ancho de la curva, desviación típica
La curva de distribución normal → N (, )
Viene determinada por una función llamada FUNCIÓN DE DENSIDAD.

Se utiliza para facilitar el cálculo de percentiles o probabilidades.

• La media acaba en 0
• La desviación típica se mueve para adelante y para atrás.

13.1 TIPIFICAICÓN DE LA VARIABLE

Una variable X que sigue de una distribución Gaussiana, puede


transformarse de manera que siga una distribución normal estándar
con media 0 y desviación típica 1 aplicando:

La tipificación sirve para transformar la variable X con una distribución


normal (,) a otra variable Z que sigue otra distribución (0,1).

La trasformación dicha es:

• Trasladar la media a = 0
• Reducir la desviación típica a = 1

Z → es la puntuación típica

En la tipificación se hace un desplazamiento horizontal hacia el centro


de coordenadas (0,0) y un desplazamiento en forma vertical (de arriba
abajo). → de la distribución normal se llega a la distribución normal
estándar (Z).La media de las puntuaciones típicas es 0 y la desviación
estándar de las puntuaciones típicas es 1.
14. ESCALAS DERIVADAS SOBRE LAS PUNTUACIONES
TÍPICAS

El inconveniente de las puntuaciones típicas es que conllevan el uso de


valores muy pequeños y valores negativos.

Por ello, se efectúan transformaciones lineales sobre las puntuaciones


típicas. Con ello, se da lugar a las ESCALAS DERIVADAS (transformar las
típicas en otras que retengan todas las relaciones de las puntuaciones
originales).

14.1 PUNTUACIÓN T

Es un tipo de puntuación en la que se transforma una puntuación Z para


facilitar su interpretación.

T DE McCALL

Se obtiene multiplicando la Z por 10 y sumándole 50.

ESCALA WECHLER ADULT INTELLIGENCE SCALE (WAIS)

Emplea una media de 100 y una desviación típica de 15.


El término coeficiente intelectual (CI) se originó en Alemania en la
década de 1910. William Stern utilizó este término para referirse a la
técnica de puntuación para pruebas de inteligencia.

El “coeficiente de inteligencia” es la edad de desarrollo de la persona


dividida por su edad cronológica. Ese resultado se multiplicaba por 100
dando resultado al coeficiente de inteligencia.

RESUMEN:

Las puntuaciones típicas representan con la letra Z la distancia del


individuo de la media en términos del desvío estándar de la
distribución normal.

La transformación de puntuaciones directas X en puntuaciones Z no


cambia la forma de distribución. La transformación es lineal y hay una
relación directa entre las puntuaciones directas X y las trasformadas Z.
La media es de 0 y la desviación estándar o la varianza es de 1. Buena
parte de las puntuaciones suelen ser negativas y casi todas decimales.
Las escalas derivadas son un procedimiento utilizado para salvar la
dificultad de que las puntuaciones Z suelen ser negativas o decimales.
Lo que se hace es trasformar las Z en otras que estén relacionadas.

Se parte de puntuaciones directas, se tipifican y se transforman


linealmente.

Las puntuaciones T tienen de media 50 y de desviación estándar 10. En el


CI la media es 100 y la desviación estándar es 15.

15. ESTADÍSTICOS DE FORMA: ASIMETRÍA Y CURTOSIS

Las medidas o estadísticos de forma son indicadores que permiten


identificar si una distribución de frecuencia presenta uniformidad.

Además, estas medidas permiten comprobar si una distribución de


frecuencia es simétrica o asimétrica y si hay una concentración de
datos o un nivel de apuntamiento.

La ASIMETRÍA es una medida para saber cuánto se parece nuestra


distribución a la distribución teórica de una “curva normal”, curva con
forma de campana.

Una distribución es simétrica cuando la mitad izquierda es la imagen


especular de la mitad derecha → MEDIA=MEDIANA

La asimetría es positiva o negativa en función del lado en qué se


encuentra la cola de distribución.
15.1 MEDIDAS DE SIMETRÍA

La simetría es importante para saber si los valores de la variable se


concentran en una determinada zona. La asimetría es importante para
saber la uniformidad de la distribución de los datos alrededor de la
media.

La asimetría se determina con el cálculo del coeficiente de asimetría de


Pearson:

15.2 MEDIDA DE APUNTALAMIENTO O CURTOSIS

La curtosis (k) nos indica en grado de apuntamiento (aislamiento) de


una distribución con respecto a la distribución normal.

Indica si la distribución es muy apuntalada o poco apuntalada. Además,


nos da noción de la concentración en la región central de la
distribución de los datos.
La estimación de curtosis en un conjunto de datos viene dada por una
expresión matemática → COEFICIENTE DE FISHER

16. RELACIÓN ENTRE MEDIDAS DE TENDENCIA


CENTRAL

• DISTRIBUCIÓN ASIMÉTRICA POSITIVA: tenemos valores atípicos


muy grandes en la distribución → MEDIA > MEDIANA > MODA

• SIMETRÍA: las tres tendencias son iguales → MEDIA = MEDIANA =


MODA

• DISTRIBUCIÓN ASIMÉTRICA NEGATIVA: tenemos valores atípicos


muy grandes en la distribución → MEDIA < MEDIANA < MODA
TEMA 3

CARLA DURÀ MAS


FACULTAD DE PSICOLOGÍA
TEMA 3.1: CORRELACIONES

1. RELACIÓN ENTRE VARIABLES

Se puede calcular y representar gráficamente la relación entre


diferentes variables para calcular sus estadísticos y así medir su
intensidad. En este tema nos centraremos en la relación entre dos
variables métricas (variables continuas)

2. CORRELACIÓN ENTRE DOS VARIABLES

Una correlación es la relación entre dos variables de manera que cada


valor de la primera corresponde con el valor de la segunda.

Si tenemos dos variables X e Y, existe correlación entre ellas si→


aumenta el valor de X y el de Y o disminuye el valor de X y de Y.

Indica, por tanto, la tendencia de que dos variables que varíen juntas →
COVARÍEN

La correlación se calcula para expresar el grado de asociación entre


ellas y verificar si existe una relación entre estas. No depende de
CAUSA-EFECTO.

3. GRÁFICO DE DISPERSIÓN

Los gráficos de dispersión son como una nube de puntos en la cual se


representan los valores de dos variables.

• Relación entre las variables → los puntos se posicionan a lo largo


de una línea
• No relación entre las variables → los puntos estarán dispersos en
forma de nube
Cuando hay una recta, decimos que es una relación lineal. Si es una
curva, es una relación no lineal. En este tema se estudiarán las relaciones
lineales.

4. CORRELACIÓN

Se tienen que considerar dos aspectos cuando se habla de correlación:

• El tipo de relación existente entre dos variables → LINEAL O NO


LINEAL

• La forma de la relación:

- Dirección → POSITIVA O NEGATIVA


- Intensidad → FUERZA DE LA RELACIÓN ENTRE LAS DOS
VARIABLES

4.1 CORRELACIÓN- RELACIÓN

En cuanto al tipo de relación, puede ser LINEAL o NO LINEAL

Si la relación es lineal, será representada en el diagrama de dispersión


aproximándose a una línea recta (Ejes Cartesianos) :
Una relación no-lineal se representa en un curso curvilíneo:

4.2 CORRELACIÓN-FORMA

En cuanto a la forma de la relación, destacan la dirección y la


intensidad:

La dirección puede ser:

• Positiva: incrementa una variable, e incrementa la otra


• Negativa: incrementa una variable y disminuye la otra

La intensidad se refiere a la fuerza de la relación entre dos variables.


Cuanto más se agrupan las puntuaciones en una línea recta, más fuerte es
la relación entre variables.

Si las puntuaciones se distribuyen uniformemente, no hay relación


entre las variables.

4.3 CORRELACIÓN DE PEARSON

Para poder analizar como los datos se aproximan a una línea recta, se
calcula el coeficiente de Pearson cuando se acoplan a una curva normal,
si no, el de Spearman.
Éste indica con qué intensidad y en qué sentido las puntuaciones de
una variable X varían juntamente con las puntuaciones Y.
Mide el grado de asociación lineal entre dos variables métricas y su
valor oscila entre -1 y 1. El valor 0 indica ausencia total.

CARACTERÍSTICAS

• El valor del coeficiente de Pearson no se altera, aunque las variables


se transformen linealmente.
• Si se reduce la variabilidad en alguna de las variables, el resultado
disminuye
• La relación entre las variables es bidireccional
• La relación puede ser debida a una tercera variable

FÓRMULAS DE CÁLCULO

La fórmula más utilizada es:


TEMA 3.2: REGRESIONES LINEALES

1. REGRESIÓN LINEAL SIMPLE

Es la dependencia entre dos o más variables que se basa en una


relación funcional matemática. Estudia la dependencia entre dos
variables, buscando una función que exprese dicha dependencia.

La regresión lineal simple estudia la dependencia de la variable


dependiente Y en función de la variable independiente X

X VARIABLE INDEPENDIENTE, Y VARIABLE DEPENDIENTE

La REGRESIÓN SIMPLE es porque tenemos una sola variable


independiente X

La REGRESIÓN LINEAL es porque estudiamos la dependencia a través de


una recta, llamada recta de regresión

La Yi son los valores observados y la Yi’ son los valores teóricos o


predichos → Yi’= a + bX → la a es la ordenada en origen (X=0) y la b es la
pendiente (cuando varía Y al aumentar X)

La aplicación de la ecuación de la regresión une los valores predichos y


para calcularlos tenemos que calcular los parámetros A y B.
Calculamos estos parámetros mediante el MÉTODO DE LOS MÍNIMOS
CUADRADOS.

El MÉTODO DE LOS MÍNIMOS CUADRADOS es un método que minimiza


la distancia entre los valores observados (Yi) y los valores predichos
(Yi’). Para ello, la recta debe estar lo más cerca posible de los valores
observados → Hay que minimizar la distancia entre los valores
observados y la recta de regresión
Las expresiones de A y B se expresan en:

¿CÓMO SE HACE?

1) Calculamos b, y para ello necesitamos las medias de X y de Y


2) Añadimos otras dos columnas a la tabla inicial
3) Sustituimos la fórmula de b
4) Obtenemos por diferencia el parámetro a

2. ERRORES DE ESTIMACIÓN

Es una forma de cuantificar el error de predicción. Consiste en obtener


las diferencias entre los valores reales y los valores predichos.

El error individual de estimación es: E= Y- Y’ → E es error de predicción, Y


es los valores reales de la variable a predecir y Y’ es la predicción.

La varianza residual o de error → ERROR CUADRÁTICO MEDIO

El ERROR TÍPICO DE ESTIMACIÓN es:


2.1 ERROR TÍPICO DE ESTIMACIÓN Y ERROR CUADRÁTICO
MEDIO

Es la suma de diferencias entre valores reales y estimados

Cuando las diferencias son negativas, la suma de los errores no mide


correctamente la magnitud del error.

Se trabaja con la suma de los cuadrados de las diferencias entre los


valores reales y los valores estimados, y se dirá que el error de predicción
es cuantificado según el criterio de mínimos cuadrados.
TEMA 4

CARLA DURÀ MAS


FACULTAD DE PSICOLOGÍA
TEMA 4: INTRODUCCIÓN A LA ESTADÍSTICA
INFERENCIAL

1. CONCEPTOS IMPORTANTES

La población es un grupo de referencia en el cual centremos nuestro


estudio.

La muestra es un subconjunto de una población. Extracción aleatoria de


la población.

Un estadístico es un índice calculado con los datos de la muestra.

Un parámetro es un índice calculable con los datos de la población.


(media, desviación típica…)

Una inferencia estadística es que, a partir de determinados índices de la


muestra, se infieren valores sobre características poblacionales en
términos de probabilidad. Aproximar como serían los parámetros (cuanto
mayor es la muestra mejor). Mediante los estadísticos, hacer una
estimación de los parámetros.

2. INFERENCIA ESTADÍSTICA

Solo excepcionalmente conocemos directamente características de la


población. Normalmente tener que estimarla partiendo de las
características de las muestras extraídas de la población.

La inferencia estadística tiene como objetivo verificar una hipótesis


relativa a las características de la población.
3. PROCESO DE LA ESTADÍSTICA INFERENCIAL

El procedimiento lógico de la inferencia se desarrolla en los siguientes


pasos:

1) EXTRACCIÓN DE UNA PARTE DE LA POBLACIÓN SIGNIFICATIVA (a


través de programas estadísticos miramos si es significativo o no)

2) CÁLCULO DE ESTADÍSTICOS DE LA MUESTRA (valores


correspondientes a los datos contenidos en la muestra)

3) ESTIMACIÓN DE PARÁMETROS EN LA POBLACIÓN A PARTIR DE


LOS RESULTADOS PROPORCIONADOS POR LA MUESTRA
(INFERENCIA)

Una inferencia estadística es un conjunto de métodos con los que se


trata de sacar una conclusión sobre la población basada en la
información obtenida de una muestra.

4. ¿POR QUÉ SE HACE UN MUESTREO?

La población representa un universo finito que, por problemas de coste


y tiempo, no se pueden explorar en su totalidad.
Por tanto, se utiliza una muestra que sea lo más representativa posible
de la población, con el fin de generalizar los resultados obtenidos en la
muestra a toda la población de referencia.

5. INFERENCIA EN LAS MEDIAS

Marcamos in intervalo de confianza (IC) con el cual marcamos bien cuál


es el error. La media poblacional es igual a la media de la muestra +- un
error. También es igual a: media – error máximo > M > media + error
máximo.

El error máximo admisible lo formará el error estándar → desviación


típica / la raíz cuadrada de N.

Para estimar un parámetro de población, se calculan sobre una muestra


representativa:

• Una estimación puntual a partir de información extraída de la


muestra, obtengo un valor numérico utilizando una estimación del
parámetro de toda la población

• Un rango de valores en el que el parámetro se encuentra con cierto


grado de certeza

Es intuitivo que la estimación será mejor:

• Cuanto mayor sea el tamaño de la muestra


• Cuanto menor es la variabilidad entre individuos

6. DISTRIBUCIÓN MUESTRAL DE LAS MEDIAS

Si repetimos la operación de muestreo


7. PROPIEDADES

Las muestras más grandes darán distribución con menor variabilidad.


Cuanta más gente habrá más pico en las gráficas.

La desviación estándar de la distribución muestral es desviación típica


/ raíz cuadrada de N y se conoce como error estándar.

A medida que el número aumenta de las muestras (n), la distribución de


las medias muestrales se concentra alrededor de la media de la
población

La varianza disminuye a medida que aumenta el tamaño de la muestra


(N).

8. DISTRIBUCION MUESTRAL E INFERENCIA SOBRE LA


MEDIA POBLACIONAL

Debemos calcular el Intervalo de Confianza para realizar una inferencia


sobre el valor de la media poblacional.

El IC = (media- error, media + error)

9. Intervalo de confianza

El intervalo de confianza es el rango de valores dentro del cual se estima


que cae el valor real de la media poblacional , con una cierta
probabilidad.

Nos permite calcular dos valores alrededor de una media muestral.


Estos valores van a acotar un rango dentro del cual, con una
determinada probabilidad, se va a localizar el parámetro poblacional
.
Intervalo de confianza → media muestral  margen de error
El nivel de confianza es el 95%. NC=95%

La parte sobrante es “alfa”. Alfa= 1 -NC (probabilidad que tenemos de


equivocarnos).

El error máximo admisible se calculará: Z alfa/ 2 por el error típico


estándar. El Z alfa / 2 es el 0.96.

PARA CALCULARLO:

Usamos la distribución normal N (0,1) y tipificamos las variables X1 y


X2.

Para tipificar → -Z alfa / 2, Z alfa/ 2.

El nivel de significación es la probabilidad de quedarse fuera de ese


intervalo que se representa con la ALFA.

Alfa /2 → 2,5%

Entonces, Z alfa /2 es igual a 1’96 y se tiene que multiplicar por la


desviación típica / la raíz de N.
• IC → IC = (x1, x2)

El error máximo admisible es: Z alfa / 2 por error típico estándar


El error típico estándar es la desviación típica / la raíz de N
El error máximo admisible también puede ser: media +- Z alfa 72 por la
desviación típica / la raíz de N

10. CONTRASTE DE HIPÓTESIS (NULA Y ALTERNATIVA)

Son las hipótesis a nivel estadístico.

La hipótesis nula y alternativa son incompatibles (si se acepta la nula se


rechaza la alternativa y viceversa)

• La hipótesis nula dice que no hay diferencias. (H0)

• La hipótesis alternativa dice que sí que hay diferencias. (H1)

La hipótesis alternativa dice que hay diferencias entre la media del primer
grupo y la media del segundo grupo.

El alfa se marca en 0,05 es igual al error tipo 1. Probabilidad que


tenemos de rechazar la hipótesis nula cuando la hipótesis nula es cierta.
Es decir, la probabilidad de decir que hay diferencias cuando no las
hay. Esto se llama FALSO POSITIVO (decir que hay diferencias cuando
posiblemente no las hay).

El error de tipo 2 o error beta es lo contrario al error alfa. Es la


probabilidad que tenemos de aceptar la hipótesis nula (decir que no
existen diferencias cuando realmente si las hay). Esto se llama FALSO
NEGATIVO.

El mínimo aceptable es el 80%


Tenemos menor probabilidad de tener un falso positivo que un falso
negativo.

Nunca podemos meter más gente en la muestra de la que necesitamos


porque los resultados pueden ser adversos. Siempre suele ser cuanto más
mejor pero se tiene que controlar.

También podría gustarte