Ilovepdf Merged-3

ANÁLISIS DE
DATOS
CARLA DURÀ MAS

FACULTAD DE PSICOLOGÍA
TEMA 1
CARLA DURÀ MAS

TEMA 1. INTRODUCCIÓN AL ANÁLISIS DE DATOS.
1. ESTADÍSTICA
➢ Es una ciencia con base matemática
➢ Se ocupa de:
▪ Sistematización, recolección, ordenación y presentación de

los datos
▪ Deducir leyes
▪ Tomar decisiones y obtener conclusiones
2. INTRODUCCIÓN AL PLURALISMO METODÓLOGICO
¿QUÉ ES EL MÉTODO?
Etimológicamente, viene de la palabra METÁ (a lo largo) y ODOS (camino)
El método es cualquier manera de proceder o de hacer algo
Se estudia:
➢ Métodos
➢ Técnicas
➢ Estrategias
3. MÉTODO CIENTÍFICO
Es una metodología para obtener nuevos conocimientos. Su principal

característica es la de OBJETIVIDAD.
Consiste en:
➢ Observación sistemática
➢ Medición
➢ Experimentación
➢ Formulación, análisis y modificación de hipótesis
➢ Conclusiones.
Las fases fundamentales son:
➢ Observar un fenómeno y hacerse preguntas

➢ Formular una hipótesis
➢ Realizar un experimento para verificar la hipótesis
➢ Analizar resultados
➢ Conclusiones
➢ Repetición del experimento
4. INVESTIGACIÓN
La investigación es una actividad humana dirigida a descubrir algo

desconocido. Además, es científica si actúa según el método científico.
Tiene algunas cualidades como:
➢ Ser LÓGICA: proceso lógico

➢ Ser SÓLIDA: proceso riguroso
➢ Ser REPRODUCIBLE: tiene que ser contrastada
5. INERTIDUMBRE
Las preguntas nos producen incertidumbre. Tenemos un 5% de

probabilidad en equivocarnos y un 95% de probabilidad en acertar.
5% = alfa. 95% = 1- alfa
El análisis de datos es una herramienta muy importante para la

investigación:
➢ Saber sacar información relevante

➢ Se sabe la confianza que se merecen las conclusiones obtenidas
6. MÉTODO HIPOTÉTICO-DEDUCTIVO
Es uno de los modelos más usados para describir el método científico.

Está basado en el ciclo inducción-deducción-inducción para establecer
hipótesis y comprobar o refutarlas.
Los pasos son:
1) Observar el fenómeno → EMPÍRICO

2) Crear una hipótesis → RACIONAL
3) Deducir consecuencias o implicaciones de la hipótesis →
EMPÍRICO
4) Comprobar o refutar lo deducido → RACIONAL
MÉTODO INDUCTIVO:
Se caracteriza por realizar conclusiones generales a partir de premisas

particulares. → DE LO PARTICULAR A LO GENERAL. Es mejor para crear
nuevas teorías
La base de este método es la SUPOSICIÓN.

Además, intenta establecer una ley universal desde casos particulares
- Las ventajas:
• Se puede crear una ley general

• Se pueden estudiar los detalles
- Las desventajas:
• Cuando se usa de forma incompleta, hay objetivos que no

son estudiados en su totalidad (corre el riesgo de
generalizar de forma errónea)
MÉTODO DEDUCTIVO
Este método, a diferencia del anterior, trata de inferir algo observado a

partir de una ley universal. → DE LO GENERAL A LO PARTICULAR. Es
mejor para probar duchas teorías.
- Las ventajas:
• Puede llevar a encontrar principios desconocidos

• Puede ser usado para corregir errores
- Las desventajas.
• Puede usarse solo si se tiene un conocimiento completo

del objeto de investigación.
7. LÓGICA DEDUCTIVA E INDUCTIVA: PENSAMIENTO DE
ARISTÓTELES
Él afirmaba que la inducción fuera el procedimiento que del particular

conducía hacia el universal.
El conocimiento humano podía desarrollare en dos direcciones:
1) Tener un primer conocimiento sensitivo del particular y llegar

al universal
2) Partir del universal para ir hacia el particular, a través de la

deducción.
La inducción está representada como un hecho simple y la deducción

como un conector.
SILOGISMOS DEDUCTIVOS:
- Todos los hombres son animales

- Todos los animales son mortales
- Por tanto, todos los hombres son mortales
Lógica deductiva: A→B y B→ C entonces A→ C
SILOGISMOS INDUCTIVOS:
Ej.: se saca un puñado de alubias del saco y todas las alubias son
blancas. ¿Podemos deducir que todas las alubias de ese saco son
blancas? → No prueba nada, no representa un conector.
8. MOMENTOS DEL MÉTODO HIPOTÉTICO- DEDUCTIVO
❖ OBSERVACIÓN:
➢ Sistemática: programada con una finalidad

➢ Causal: de forma accidental
*La condición para que sea científica es que tiene que ser
CUANTIFICABLE
❖ FORMULACIÓN DE HIPÓTESIS:
*Para que sea científica, debe explicar la RELACIÓN SISTEMATICA entre

las variables intervinientes. Además, tiene que ser FALSABLE.
❖ COMPROBACIÓN O REFUTACIÓN DE HIPÓTESIS:
*Si es coherente → DEMOSTRADA PROVISIONALMENTE

*Si no es refutada → TEORÍA
*Si se consolida con otros experimentos → LEY NATURAL
❖ REPETICIÓN DEL EXPERIMENTO:
*Para que sea científico, tiene que repetirse.

*La reproducidad se refiere a la capacidad de repetir un experimento en
diferentes situaciones.
9. HIPÓTESIS
Deben ser falsables experimentalmente → ACEPTADAS O RECHAZADAS
*Popper dice que cuando una teoría queda corroborada, es aceptada

provisionalmente pero no verificada.
10. PLURALIDAD DE MÉTODOS
El objetivo de la investigación está sujeto a modificaciones y el

investigador tiene que adecuar sus métodos de investigación a
aquello que quiere investigar, a partir de una PLURALIDAD DE
MÉTODOS.
11. NIVELES DE INDAGACIÓN
1) NIVEL DESCRIPTIVO U OBSERVACIONAL (especifica cómo son las

cosas de modo univariante)
2) NIVEL CORRELACIONAL/RELACIONAL (aborda la relación entre
dos o más variables)
3) NIVEL EXPLICATIVO O INFERENCIAL (comparación entre grupos o
establecimiento de relaciones causa-efecto)
NIVEL DESCRIPTIVO
Intenta dar respuesta a ¿CÓMO SON LAS COSAS?
Se obtiene información de algo desconocido. Se encarga de puntualizar

las características de la población que se está estudiando.
El ANÁLISIS UNIVARIANTE trata de analizar los datos de la forma más

sencilla posible, dónde los datos solo tienen una variable. Describe los
datos para encontrar los patrones que existen en ellos.
NIVEL RELACIONAL
Intenta dar respuesta a ¿CÓMO UNAS COSAS SE RELACIONAN CON

OTRAS?
Se obtiene información acerca la relación de los fenómenos y en qué

medida están relacionados.
Nos permite predecir unos fenómenos a partir de otros sin haber

relación causal.
Cuando hay dos variables→ CORRELACIÓN DE PEARSON
➢ Normalidad
➢ Paramétricas → Pearson
➢ No paramétricas → Spearman
NIVEL EXPLICATIVO
Intenta dar respuesta a ¿POR QUÉ LAS COSAS SON COMO SON?
En este nivel es posible establecer relaciones causales entre los

factores. Se hace mediante EXPERIMENTOS.
12. VARIABLES
Es cualquier característica de un objeto que puede ser medido

directa o indirectamente. Tiene que ser medible y cuantificable y se
presentan bajo diferentes valores.
VARIABLE INDEPENDIENTE
• Son aquellas utilizadas para explicar o predecir otras variables.
• Su valor no depende de otra variable
• Se representa mediante la X
• Es la variable manipulada en un experimento
VARIABLE DEPENDIENTE
• Su comportamiento se pretende explicar o predecir en función de

una o más variables independientes
• Es el evento que se espera que cambie cuando se manipula la VI.
• Se representa por Y
VARIABLE EXTRAÑA
• Tiene algún efecto sobre la variable dependiente, así que deben

estar controladas si queremos asegurarnos de que los efectos
observados en la VD son únicamente causados por VI.
• Se controlan mediante la ALEATORIZACIÓN
• Es representada por la Z
Hay diferentes tipos de relaciones:
o RELACIÓN ESPURIA: existe una relación entre X e Y porque no se ha

tenido en cuenta a la Z, que es la responsable de que exista esa
relación.
o RELACIÓN MEDIACIONAL: la VI se relaciona de manera indirecta con

la VD. X tiene un efecto sobre Z y Z sobre Y.
o RELACIÓN MODERADA: la relación entre X y Y depende de la Z
13. CONDICIONES DE UN EXPERIMENTO
A) VALIDEZ INTERNA: garantizar que los cambios observados en la

variable dependiente hayan sido producidos por la variable
independiente.
B) VALIDEZ EXTERNA: garantizar que los resultados obtenidos se

puedan generalizar
14. TIPOS DE VARIABLES SEGÚN SU ESCALA DE
MEDIDA
❖ VARIABLES CUALITATIVAS (no métricas): expresan cualidad
➢ Nominales: no siguen un orden

➢ Ordinales: siguen un orden
➢ Binarias: solo permiten dos valores (o blanco o negro)
❖ VARIABLES CUANTITATIVAS (métricas): expresan cantidad
➢ Discretas: solo pueden tener números enteros

➢ Continuas: pueden adquirir cualquier tipo de partición.
➢ Escalas: de intervalo (cualquier valor del intervalo) o de razón
(cuenta con un 0, sin valor negativo)
15. DISEÑOS DE INVESTIGACIÓN
Dependiendo del fenómeno que queramos estudiar y el nivel de

comprensión que nos propongamos obtener del mismo, la recogida de
datos se puede realizar mediante metodologías que implican distinto
grado de control:
❖ OBSERVACIONAL:
➢ Variables no controladas
➢ Solo permiten ser observadas
➢ Investigación de tipo descriptivo
▪ Transversales: recopila datos en un momento concreto durante

en proceso
▪ Longitudinales: se desarrolla en un largo periodo de tiempo
➢ Ventaja: permite observar la evolución de los procesos estudiados
➢ Desventaja: resultados superficiales
❖ CUASIEXPERIMENTAL:
➢ Se observa el fenómeno
➢ Se pueden controlar algunos aspectos
➢ Tiene un grado intermedio de control
➢ Investigación de tipo relacional
➢ No se seleccionan los grupos de forma aleatoria
➢ Desventaja: hay un menor control en las variables extrañas
❖ EXPERIMENTAL:
➢ Manipulación de variables
➢ Máximo grado de control
➢ Determina relaciones causa-efecto
➢ Investigación de tipo explicativo
16. PRETEST-INTERVENCIÓN POSTEST
Es el primer registro que yo cojo como muestra de partida.
Ej.: TEST:
-Buena alimentación: variable independiente
-Conocimiento sobre la alimentación: variable dependiente
PRETEST INTERVENCIÓN POSTEST RETENCIÓN
G. COTRL test -------------------- test Si ha

mejorado
G. EXPER test Clases de test Si ha
alimentación empeorado
TEMA 2
CARLA DURÀ MAS

TEMA 2: ESTADÍSTICA DESCRIPTIVA
1. ¿QUÉ ES?
La estadística descriptiva es, junto con la estadística inferencial y

relacional, una de las tres grandes ramas de la estadística. Trata de
describir algo de manera cuantitativa.
Trata de recoger datos, almacenarlos, realizar tablas y gráficos que nos

ofrezcan información sobre un determinado asunto.
Los tipos de variables estadísticas son:
➢ Variable cualitativa (cualidad)

➢ Variable cuantitativa (cantidad)
2. PARÁMETROS ESTADÍSTICOS BÁSICOS
Tienen el objetivo de resumir la información y hay diversas formas que

ofrecen medidas de un determinado tipo:
➢ Información sobre el CENTRO

➢ Información sobre la POSICIÓN DE UN VALOR
➢ Información sobre la DIMENSIÓN O VARIABILIDAD
➢ Información sobre la FORMA
1) CENTRALIZACIÓN → media, mediana y moda
2) POSICIÓN → cuartiles, percentiles, deciles
3) DISPERSIÓN → rango, varianza, desviación estándar, coeficiente

de variación, rango intercuartílico.
4) FORMA → asimetría y apuntamiento o curtosis
3. ESTADÍSTICOS DE CENTRALIDAD
La MEDIA es la media aritmética de los valores de una variable → suma

de los valores dividido por el total
La MEDIANA es un valor que divide a las observaciones en dos grupos

con el mismo número de individuos.
*Ej.: la mediana de 1, 2, 3, 4, 5, 6, 7, 8 es 5
La MODA es el valor donde la distribución de frecuencia alcanza un

máximo.
*Ej.: la moda de 1,2,3,4,5,6,6,8,9 es 6
4. DISTRIBUCIÓN DE FRECUENCIAS
La FRECUENCIA ABSOLUTA es el número total de veces que se repite

un dato (fi)
La FRECUENCIA RELATIVA es la fracción del total que se repite un dato

(hi)
La FRECUENCIA ACOMULADA puede ser relativa acumulada (Hi) o
absoluta acumulada (Fi).
FRECUENCIA ABSOLUTA
Es una medida estadística que nos da información acerca de la

cantidad de veces que se repite un dato. Se representa mediante fi
FRECUENCIA RELATIVA
Es una medida estadística que se calcula como el cociente de

frecuencia absoluta de algún valor de la muestra entre el número
total de valores que componen la muestra (N)
hi= fi / N → es siempre positiva
FRECUENCIA ABSOLUTA
Es el resultado de sumar sucesivamente las frecuencias absolutas y

relativas.
5. DISTRIBUCIÓN DE FRECUENCIA POR INTERVALOS
La distribución de frecuencias agrupadas o “tabla de datos agrupados”

se emplea si las variables toman un número grande de valores.
La finalidad de las agrupaciones en frecuencias es facilitar la obtención

de la información que contienen datos.
Los grupos son denominados CLASES y a cada clase se le asigna su

frecuencia correspondiente.
6. MEDIA
La fórmula de la media aritmética ponderada es:
6.1 MEDIA PARA DATOS NO AGRUPADOS
Es muy sensible a cambios y valores extremos en los datos.
Si estos son la totalidad de datos que interesan en el estudio →

POBLACIÓN
Si solo es una parte para obtener información → MUESTRA
6.2 MEDIA PARA DATOS AGRUPADOS
No se conocen los valores de todas las variables, solo se conoce los

extremos del rango. Se usa el valor medio del intervalo.
7. MODA
Es el valor que se observa con la frecuencia más alta. Cuando hay dos
datos con la frecuencia máxima, la distribución se llama BIMODAL.
7.1 MODA: DATOS AGRUPADOS
La clase modal es la clase en la que se concentra la frecuencia más

alta.
El cálculo de la moda por INTERPOOLACIÓN es la que la moda se

desplaza más hacia la clase contigua con mayor frecuencia.
La fórmula es:
Hay que identificar el intervalo modal →

intervalo que posee la frecuencia
absoluta más alta.
Partes de la fórmula:
• Límite inferior (Li)→ límite inferior del intervalo modal

• Frecuencia absoluta (fi)
• fi-1 → frecuencia absoluta anterior al intervalo modal
• fi+1 → frecuencia absoluta siguiente al intervalo modal
• A → amplitud del intervalo modal.
8. MEDIANA
Es el valor central de una serie de datos ordenados. Los valores son con
porcentajes. Representa el cuartil 2 (Q2)
Representa el 50% de los valores de una mediana y el 50% restante de

la otra mediana.
La fórmula con la frecuencia relativa es:
Cuando tenemos las frecuencias absolutas acumuladas, la fórmula es:

9. HISTOGRÁMA PARA DATOS AGRUPADOS
Sirve para ver cómo se distribuyen los valores de la variable en estudio.

Es una representación gráfica de una variable en forma de barras.
10. ESTADÍSTICOS DE POSICIÓN
Se trata de medidas que dan cuenta de una determinada posición

dentro de la distribución de los datos. Se representa en porcentajes
DATOS NO AGRUPADOS:
DATOS AGRUPADOS:
Se representa mediante una fórmula que representa porcentajes.

*Lo utilizo cuando para un valor concreto de mi variable quiero asignar
una frecuencia acumulada
10.1 CUARTILES, DECILES Y PERCENTILES
Los CUARTILES dividen la muestra en 4 grupos con frecuencias

similares. Se ordenan de mayor a menor todos los datos. Cada cuartil
contiene el 25% de los datos.
• Cuartil 1 → Percentil 25
Los DECILES dan los valores correspondientes al 10%, 20%,…, 90% de

los datos
Los PERCENTILES son los estadísticos que dividen la sucesión de datos

ordenados en cien partes proporcionalmente iguales. Valores
correspondientes a 1%, 2% y al 99% de los datos.
Decil 5 → Percentil 50 → Cuartil 2 → Mediana
CUARTILES:
El Q1 → N*1 / 4 → 25% por debajo y 75% por arriba
El Q2→ N*2 / 4 → 50% por debajo y 50% por arriba → Mediana (Me)
El Q3 → N*3 / 4 → 75% por debajo y 25% por arriba
La fórmula para cuartiles para datos agrupados es:

DECILES
Son números que dividen la sucesión de datos ordenados en diez

partes porcentuales iguales.
Los deciles se denotan en D1, D2, D3…
La fórmula para cuando hay datos agrupados es:
*Para ver cuál es, mirar la frecuencia acumulada (Fi).
PERCENTILES
Son números que dividen la sucesión de datos agrupados en cien

partes porcentuales iguales.
Los percentiles se denotan en P1, P2, P3…
La fórmula para cuando hay datos agrupados es:
REPASO CUARTILES, DECILES Y PERCENTILES:
EQUIVALENCIAS: P75=Q3; P50=Q2; P25=Q1

EQUIVALENCIAS: ME=P50=D5=Q2
11. DIAGRAMA DE CAJA Y BIGOTES
Con los cuartiles se construye un gráfico especial. Nos permite observar

qué tan dispersos están los datos respecto a la mediana, con respecto
al Q1 y al Q3.
También, nos permite determinar la existencia de valores atípicos

dentro de la muestra. Para identificarlos se calculan los límites
admisibles inferior y superior.
Podemos sacar la dispersión de los datos de una variable, ya que si el

rango de los datos es muy grande, se verán más separados y viceversa.
Se pueden ver:
• Si los datos son asimétricos

• Cuan estrechamente se agrupan los datos
• Si los datos están dispersos y en qué dirección
• Si hay valores atípicos y cuáles son sus valores.
12. MEDIDAS DE DISPERSIÓN
El rango intercuartílico es una medida de dispersión. Tiene sentido

cuando va acompañado de la mediana.
Se calcula con Q3-Q1.
Dependiendo de los datos, es:
• Paramétricos (media) y la desviación típica

• No paramétricos (mediana) (rango intercuartílico)
12.1 ESTADÍSTICOS DE VARIABILIDAD (DISPERSIÓN)
Una medida de dispersión nos determina el grado de acercamiento o

distanciamiento de los valores de una distribución respecto a la
media. Indica por medio de un número si los diferentes valores de una
variable están muy alejados de la media.
Esta medida de dispersión que considera todos los datos se llama

Varianza (Variabilidad).
VARIANZA
Es una medida de dispersión de la población, y se denota con el cuadrado

de la letra griega sigma ().
Es sensible a valores extremos (alejados de la media) y sus unidades

son el cuadrado de las de la variable.
La fórmula es:
DESVIACIÓN ESTÁNDAR (TÍPICA)
La medida de dispersión de la muestra se denota con el cuadrado de la

letra s y se llama Desviación Estándar.
Es la raíz cuadrada de la varianza.
La fórmula es:
COEFICIENTE DE VARIACIÓN:
Para aprovechar al máximo la desviación estándar, se puede calcular el

coeficiente de variación, que es un número adimensional (sin unidad de
medida).
La fórmula es:
Se emplea cuando hay una escala donde no hay negativos. Sirve para
comparar diferentes distribuciones y comprender cuál es la más
variable.
No puede haber ni números negativos ni 0.
Son comparables entre sí.

13. DISTRIBUCIÓN NORMAL
La distribución normal es una distribución de probabilidad que se

utiliza para describir variables continuas que tienden a concentrarse
alrededor de un valor promedio.
Cuando tenemos un gran número de datos, éstos se suelen ajustar a la

curva roja con forma de campana. CUANDO CUBREN LA CURVA NORMAl,
CUBREN LA NORMALIDAD.
Si la media=mediana=moda → Simétrica
*Debajo de la curva roja está el 100% de la población.
• En el eje horizontal→ medidas realizadas

• En el eje vertical → frecuencia
• En la distribución normal → observaciones frecuentes para datos
centrades de la curva
• En la distribución normal → observaciones más alejadas del centro
son los valores que ocurren con menos frecuencia
La curva de distribución normal es una campana simétrica cuya forma y

posición depende de dos parámetros:
•  → media poblacional
•  → ancho de la curva, desviación típica
La curva de distribución normal → N (, )
Viene determinada por una función llamada FUNCIÓN DE DENSIDAD.
Se utiliza para facilitar el cálculo de percentiles o probabilidades.
• La media acaba en 0
• La desviación típica se mueve para adelante y para atrás.
13.1 TIPIFICAICÓN DE LA VARIABLE
Una variable X que sigue de una distribución Gaussiana, puede

transformarse de manera que siga una distribución normal estándar
con media 0 y desviación típica 1 aplicando:
La tipificación sirve para transformar la variable X con una distribución

normal (,) a otra variable Z que sigue otra distribución (0,1).
La trasformación dicha es:
• Trasladar la media a = 0
• Reducir la desviación típica a = 1
Z → es la puntuación típica
En la tipificación se hace un desplazamiento horizontal hacia el centro

de coordenadas (0,0) y un desplazamiento en forma vertical (de arriba
abajo). → de la distribución normal se llega a la distribución normal
estándar (Z).La media de las puntuaciones típicas es 0 y la desviación
estándar de las puntuaciones típicas es 1.
14. ESCALAS DERIVADAS SOBRE LAS PUNTUACIONES
TÍPICAS
El inconveniente de las puntuaciones típicas es que conllevan el uso de

valores muy pequeños y valores negativos.
Por ello, se efectúan transformaciones lineales sobre las puntuaciones

típicas. Con ello, se da lugar a las ESCALAS DERIVADAS (transformar las
típicas en otras que retengan todas las relaciones de las puntuaciones
originales).
14.1 PUNTUACIÓN T
Es un tipo de puntuación en la que se transforma una puntuación Z para

facilitar su interpretación.
T DE McCALL
Se obtiene multiplicando la Z por 10 y sumándole 50.
ESCALA WECHLER ADULT INTELLIGENCE SCALE (WAIS)
Emplea una media de 100 y una desviación típica de 15.

El término coeficiente intelectual (CI) se originó en Alemania en la
década de 1910. William Stern utilizó este término para referirse a la
técnica de puntuación para pruebas de inteligencia.
El “coeficiente de inteligencia” es la edad de desarrollo de la persona

dividida por su edad cronológica. Ese resultado se multiplicaba por 100
dando resultado al coeficiente de inteligencia.
RESUMEN:
Las puntuaciones típicas representan con la letra Z la distancia del

individuo de la media en términos del desvío estándar de la
distribución normal.
La transformación de puntuaciones directas X en puntuaciones Z no

cambia la forma de distribución. La transformación es lineal y hay una
relación directa entre las puntuaciones directas X y las trasformadas Z.
La media es de 0 y la desviación estándar o la varianza es de 1. Buena
parte de las puntuaciones suelen ser negativas y casi todas decimales.
Las escalas derivadas son un procedimiento utilizado para salvar la
dificultad de que las puntuaciones Z suelen ser negativas o decimales.
Lo que se hace es trasformar las Z en otras que estén relacionadas.
Se parte de puntuaciones directas, se tipifican y se transforman

linealmente.
Las puntuaciones T tienen de media 50 y de desviación estándar 10. En el

CI la media es 100 y la desviación estándar es 15.
15. ESTADÍSTICOS DE FORMA: ASIMETRÍA Y CURTOSIS
Las medidas o estadísticos de forma son indicadores que permiten

identificar si una distribución de frecuencia presenta uniformidad.
Además, estas medidas permiten comprobar si una distribución de

frecuencia es simétrica o asimétrica y si hay una concentración de
datos o un nivel de apuntamiento.
La ASIMETRÍA es una medida para saber cuánto se parece nuestra

distribución a la distribución teórica de una “curva normal”, curva con
forma de campana.
Una distribución es simétrica cuando la mitad izquierda es la imagen

especular de la mitad derecha → MEDIA=MEDIANA
La asimetría es positiva o negativa en función del lado en qué se

encuentra la cola de distribución.
15.1 MEDIDAS DE SIMETRÍA
La simetría es importante para saber si los valores de la variable se

concentran en una determinada zona. La asimetría es importante para
saber la uniformidad de la distribución de los datos alrededor de la
media.
La asimetría se determina con el cálculo del coeficiente de asimetría de

Pearson:
15.2 MEDIDA DE APUNTALAMIENTO O CURTOSIS
La curtosis (k) nos indica en grado de apuntamiento (aislamiento) de

una distribución con respecto a la distribución normal.
Indica si la distribución es muy apuntalada o poco apuntalada. Además,

nos da noción de la concentración en la región central de la
distribución de los datos.
La estimación de curtosis en un conjunto de datos viene dada por una
expresión matemática → COEFICIENTE DE FISHER
16. RELACIÓN ENTRE MEDIDAS DE TENDENCIA

CENTRAL
• DISTRIBUCIÓN ASIMÉTRICA POSITIVA: tenemos valores atípicos

muy grandes en la distribución → MEDIA > MEDIANA > MODA
• SIMETRÍA: las tres tendencias son iguales → MEDIA = MEDIANA =

MODA
• DISTRIBUCIÓN ASIMÉTRICA NEGATIVA: tenemos valores atípicos

muy grandes en la distribución → MEDIA < MEDIANA < MODA
TEMA 3
CARLA DURÀ MAS

TEMA 3.1: CORRELACIONES
1. RELACIÓN ENTRE VARIABLES
Se puede calcular y representar gráficamente la relación entre

diferentes variables para calcular sus estadísticos y así medir su
intensidad. En este tema nos centraremos en la relación entre dos
variables métricas (variables continuas)
2. CORRELACIÓN ENTRE DOS VARIABLES
Una correlación es la relación entre dos variables de manera que cada

valor de la primera corresponde con el valor de la segunda.
Si tenemos dos variables X e Y, existe correlación entre ellas si→

aumenta el valor de X y el de Y o disminuye el valor de X y de Y.
Indica, por tanto, la tendencia de que dos variables que varíen juntas →
COVARÍEN
La correlación se calcula para expresar el grado de asociación entre

ellas y verificar si existe una relación entre estas. No depende de
CAUSA-EFECTO.
3. GRÁFICO DE DISPERSIÓN
Los gráficos de dispersión son como una nube de puntos en la cual se

representan los valores de dos variables.
• Relación entre las variables → los puntos se posicionan a lo largo

de una línea
• No relación entre las variables → los puntos estarán dispersos en
forma de nube
Cuando hay una recta, decimos que es una relación lineal. Si es una
curva, es una relación no lineal. En este tema se estudiarán las relaciones
lineales.
4. CORRELACIÓN
Se tienen que considerar dos aspectos cuando se habla de correlación:
• El tipo de relación existente entre dos variables → LINEAL O NO

LINEAL
• La forma de la relación:
- Dirección → POSITIVA O NEGATIVA

- Intensidad → FUERZA DE LA RELACIÓN ENTRE LAS DOS
VARIABLES
4.1 CORRELACIÓN- RELACIÓN
En cuanto al tipo de relación, puede ser LINEAL o NO LINEAL
Si la relación es lineal, será representada en el diagrama de dispersión

aproximándose a una línea recta (Ejes Cartesianos) :
Una relación no-lineal se representa en un curso curvilíneo:
4.2 CORRELACIÓN-FORMA
En cuanto a la forma de la relación, destacan la dirección y la

intensidad:
La dirección puede ser:
• Positiva: incrementa una variable, e incrementa la otra

• Negativa: incrementa una variable y disminuye la otra
La intensidad se refiere a la fuerza de la relación entre dos variables.

Cuanto más se agrupan las puntuaciones en una línea recta, más fuerte es
la relación entre variables.
Si las puntuaciones se distribuyen uniformemente, no hay relación

entre las variables.
4.3 CORRELACIÓN DE PEARSON
Para poder analizar como los datos se aproximan a una línea recta, se
calcula el coeficiente de Pearson cuando se acoplan a una curva normal,
si no, el de Spearman.
Éste indica con qué intensidad y en qué sentido las puntuaciones de
una variable X varían juntamente con las puntuaciones Y.
Mide el grado de asociación lineal entre dos variables métricas y su
valor oscila entre -1 y 1. El valor 0 indica ausencia total.
CARACTERÍSTICAS
• El valor del coeficiente de Pearson no se altera, aunque las variables

se transformen linealmente.
• Si se reduce la variabilidad en alguna de las variables, el resultado
disminuye
• La relación entre las variables es bidireccional
• La relación puede ser debida a una tercera variable
FÓRMULAS DE CÁLCULO
La fórmula más utilizada es:

TEMA 3.2: REGRESIONES LINEALES
1. REGRESIÓN LINEAL SIMPLE
Es la dependencia entre dos o más variables que se basa en una

relación funcional matemática. Estudia la dependencia entre dos
variables, buscando una función que exprese dicha dependencia.
La regresión lineal simple estudia la dependencia de la variable

dependiente Y en función de la variable independiente X
X VARIABLE INDEPENDIENTE, Y VARIABLE DEPENDIENTE
La REGRESIÓN SIMPLE es porque tenemos una sola variable

independiente X
La REGRESIÓN LINEAL es porque estudiamos la dependencia a través de

una recta, llamada recta de regresión
La Yi son los valores observados y la Yi’ son los valores teóricos o

predichos → Yi’= a + bX → la a es la ordenada en origen (X=0) y la b es la
pendiente (cuando varía Y al aumentar X)
La aplicación de la ecuación de la regresión une los valores predichos y

para calcularlos tenemos que calcular los parámetros A y B.
Calculamos estos parámetros mediante el MÉTODO DE LOS MÍNIMOS
CUADRADOS.
El MÉTODO DE LOS MÍNIMOS CUADRADOS es un método que minimiza

la distancia entre los valores observados (Yi) y los valores predichos
(Yi’). Para ello, la recta debe estar lo más cerca posible de los valores
observados → Hay que minimizar la distancia entre los valores
observados y la recta de regresión
Las expresiones de A y B se expresan en:
¿CÓMO SE HACE?
1) Calculamos b, y para ello necesitamos las medias de X y de Y

2) Añadimos otras dos columnas a la tabla inicial
3) Sustituimos la fórmula de b
4) Obtenemos por diferencia el parámetro a
2. ERRORES DE ESTIMACIÓN
Es una forma de cuantificar el error de predicción. Consiste en obtener

las diferencias entre los valores reales y los valores predichos.
El error individual de estimación es: E= Y- Y’ → E es error de predicción, Y

es los valores reales de la variable a predecir y Y’ es la predicción.
La varianza residual o de error → ERROR CUADRÁTICO MEDIO
El ERROR TÍPICO DE ESTIMACIÓN es:

2.1 ERROR TÍPICO DE ESTIMACIÓN Y ERROR CUADRÁTICO
MEDIO
Es la suma de diferencias entre valores reales y estimados
Cuando las diferencias son negativas, la suma de los errores no mide

correctamente la magnitud del error.
Se trabaja con la suma de los cuadrados de las diferencias entre los

valores reales y los valores estimados, y se dirá que el error de predicción
es cuantificado según el criterio de mínimos cuadrados.
TEMA 4
CARLA DURÀ MAS

TEMA 4: INTRODUCCIÓN A LA ESTADÍSTICA
INFERENCIAL
1. CONCEPTOS IMPORTANTES
La población es un grupo de referencia en el cual centremos nuestro

estudio.
La muestra es un subconjunto de una población. Extracción aleatoria de

la población.
Un estadístico es un índice calculado con los datos de la muestra.
Un parámetro es un índice calculable con los datos de la población.

(media, desviación típica…)
Una inferencia estadística es que, a partir de determinados índices de la

muestra, se infieren valores sobre características poblacionales en
términos de probabilidad. Aproximar como serían los parámetros (cuanto
mayor es la muestra mejor). Mediante los estadísticos, hacer una
estimación de los parámetros.
2. INFERENCIA ESTADÍSTICA
Solo excepcionalmente conocemos directamente características de la

población. Normalmente tener que estimarla partiendo de las
características de las muestras extraídas de la población.
La inferencia estadística tiene como objetivo verificar una hipótesis

relativa a las características de la población.
3. PROCESO DE LA ESTADÍSTICA INFERENCIAL
El procedimiento lógico de la inferencia se desarrolla en los siguientes

pasos:
1) EXTRACCIÓN DE UNA PARTE DE LA POBLACIÓN SIGNIFICATIVA (a

través de programas estadísticos miramos si es significativo o no)
2) CÁLCULO DE ESTADÍSTICOS DE LA MUESTRA (valores

correspondientes a los datos contenidos en la muestra)
3) ESTIMACIÓN DE PARÁMETROS EN LA POBLACIÓN A PARTIR DE

LOS RESULTADOS PROPORCIONADOS POR LA MUESTRA
(INFERENCIA)
Una inferencia estadística es un conjunto de métodos con los que se

trata de sacar una conclusión sobre la población basada en la
información obtenida de una muestra.
4. ¿POR QUÉ SE HACE UN MUESTREO?
La población representa un universo finito que, por problemas de coste

y tiempo, no se pueden explorar en su totalidad.
Por tanto, se utiliza una muestra que sea lo más representativa posible
de la población, con el fin de generalizar los resultados obtenidos en la
muestra a toda la población de referencia.
5. INFERENCIA EN LAS MEDIAS
Marcamos in intervalo de confianza (IC) con el cual marcamos bien cuál

es el error. La media poblacional es igual a la media de la muestra +- un
error. También es igual a: media – error máximo > M > media + error
máximo.
El error máximo admisible lo formará el error estándar → desviación

típica / la raíz cuadrada de N.
Para estimar un parámetro de población, se calculan sobre una muestra

representativa:
• Una estimación puntual a partir de información extraída de la

muestra, obtengo un valor numérico utilizando una estimación del
parámetro de toda la población
• Un rango de valores en el que el parámetro se encuentra con cierto

grado de certeza
Es intuitivo que la estimación será mejor:
• Cuanto mayor sea el tamaño de la muestra

• Cuanto menor es la variabilidad entre individuos
6. DISTRIBUCIÓN MUESTRAL DE LAS MEDIAS
Si repetimos la operación de muestreo

7. PROPIEDADES
Las muestras más grandes darán distribución con menor variabilidad.

Cuanta más gente habrá más pico en las gráficas.
La desviación estándar de la distribución muestral es desviación típica

/ raíz cuadrada de N y se conoce como error estándar.
A medida que el número aumenta de las muestras (n), la distribución de

las medias muestrales se concentra alrededor de la media de la
población
La varianza disminuye a medida que aumenta el tamaño de la muestra

(N).
8. DISTRIBUCION MUESTRAL E INFERENCIA SOBRE LA

MEDIA POBLACIONAL
Debemos calcular el Intervalo de Confianza para realizar una inferencia

sobre el valor de la media poblacional.
El IC = (media- error, media + error)
9. Intervalo de confianza
El intervalo de confianza es el rango de valores dentro del cual se estima

que cae el valor real de la media poblacional , con una cierta
probabilidad.
Nos permite calcular dos valores alrededor de una media muestral.

Estos valores van a acotar un rango dentro del cual, con una
determinada probabilidad, se va a localizar el parámetro poblacional
.
Intervalo de confianza → media muestral  margen de error
El nivel de confianza es el 95%. NC=95%
La parte sobrante es “alfa”. Alfa= 1 -NC (probabilidad que tenemos de

equivocarnos).
El error máximo admisible se calculará: Z alfa/ 2 por el error típico

estándar. El Z alfa / 2 es el 0.96.
PARA CALCULARLO:
Usamos la distribución normal N (0,1) y tipificamos las variables X1 y

X2.
Para tipificar → -Z alfa / 2, Z alfa/ 2.
El nivel de significación es la probabilidad de quedarse fuera de ese

intervalo que se representa con la ALFA.
Alfa /2 → 2,5%
Entonces, Z alfa /2 es igual a 1’96 y se tiene que multiplicar por la

desviación típica / la raíz de N.
• IC → IC = (x1, x2)
El error máximo admisible es: Z alfa / 2 por error típico estándar

El error típico estándar es la desviación típica / la raíz de N
El error máximo admisible también puede ser: media +- Z alfa 72 por la
desviación típica / la raíz de N
10. CONTRASTE DE HIPÓTESIS (NULA Y ALTERNATIVA)
Son las hipótesis a nivel estadístico.
La hipótesis nula y alternativa son incompatibles (si se acepta la nula se

rechaza la alternativa y viceversa)
• La hipótesis nula dice que no hay diferencias. (H0)
• La hipótesis alternativa dice que sí que hay diferencias. (H1)
La hipótesis alternativa dice que hay diferencias entre la media del primer
grupo y la media del segundo grupo.
El alfa se marca en 0,05 es igual al error tipo 1. Probabilidad que

tenemos de rechazar la hipótesis nula cuando la hipótesis nula es cierta.
Es decir, la probabilidad de decir que hay diferencias cuando no las
hay. Esto se llama FALSO POSITIVO (decir que hay diferencias cuando
posiblemente no las hay).
El error de tipo 2 o error beta es lo contrario al error alfa. Es la

probabilidad que tenemos de aceptar la hipótesis nula (decir que no
existen diferencias cuando realmente si las hay). Esto se llama FALSO
NEGATIVO.
El mínimo aceptable es el 80%

Tenemos menor probabilidad de tener un falso positivo que un falso
negativo.
Nunca podemos meter más gente en la muestra de la que necesitamos

porque los resultados pueden ser adversos. Siempre suele ser cuanto más
mejor pero se tiene que controlar.

Ilovepdf Merged-3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ilovepdf Merged-3

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS DE

CARLA DURÀ MAS

CARLA DURÀ MAS

➢ Es una ciencia con base matemática

▪ Sistematización, recolección, ordenación y presentación de

▪ Tomar decisiones y obtener conclusiones

2. INTRODUCCIÓN AL PLURALISMO METODÓLOGICO

Etimológicamente, viene de la palabra METÁ (a lo largo) y ODOS (camino)

El método es cualquier manera de proceder o de hacer algo

Es una metodología para obtener nuevos conocimientos. Su principal

Las fases fundamentales son:

➢ Observar un fenómeno y hacerse preguntas

La investigación es una actividad humana dirigida a descubrir algo

Tiene algunas cualidades como:

➢ Ser LÓGICA: proceso lógico

Las preguntas nos producen incertidumbre. Tenemos un 5% de

5% = alfa. 95% = 1- alfa

El análisis de datos es una herramienta muy importante para la

➢ Saber sacar información relevante

Es uno de los modelos más usados para describir el método científico.

Los pasos son:

1) Observar el fenómeno → EMPÍRICO

Se caracteriza por realizar conclusiones generales a partir de premisas

La base de este método es la SUPOSICIÓN.

• Se puede crear una ley general

• Cuando se usa de forma incompleta, hay objetivos que no

Este método, a diferencia del anterior, trata de inferir algo observado a

• Puede llevar a encontrar principios desconocidos

• Puede usarse solo si se tiene un conocimiento completo

7. LÓGICA DEDUCTIVA E INDUCTIVA: PENSAMIENTO DE

Él afirmaba que la inducción fuera el procedimiento que del particular

1) Tener un primer conocimiento sensitivo del particular y llegar

2) Partir del universal para ir hacia el particular, a través de la

La inducción está representada como un hecho simple y la deducción

- Todos los hombres son animales

Lógica deductiva: A→B y B→ C entonces A→ C

8. MOMENTOS DEL MÉTODO HIPOTÉTICO- DEDUCTIVO

➢ Sistemática: programada con una finalidad

*Para que sea científica, debe explicar la RELACIÓN SISTEMATICA entre

❖ COMPROBACIÓN O REFUTACIÓN DE HIPÓTESIS:

*Si es coherente → DEMOSTRADA PROVISIONALMENTE

❖ REPETICIÓN DEL EXPERIMENTO:

*Para que sea científico, tiene que repetirse.

Deben ser falsables experimentalmente → ACEPTADAS O RECHAZADAS

*Popper dice que cuando una teoría queda corroborada, es aceptada

10. PLURALIDAD DE MÉTODOS

El objetivo de la investigación está sujeto a modificaciones y el

1) NIVEL DESCRIPTIVO U OBSERVACIONAL (especifica cómo son las

Intenta dar respuesta a ¿CÓMO SON LAS COSAS?

Se obtiene información de algo desconocido. Se encarga de puntualizar

El ANÁLISIS UNIVARIANTE trata de analizar los datos de la forma más

Intenta dar respuesta a ¿CÓMO UNAS COSAS SE RELACIONAN CON

Se obtiene información acerca la relación de los fenómenos y en qué

Nos permite predecir unos fenómenos a partir de otros sin haber

Cuando hay dos variables→ CORRELACIÓN DE PEARSON

En este nivel es posible establecer relaciones causales entre los

Es cualquier característica de un objeto que puede ser medido

• Son aquellas utilizadas para explicar o predecir otras variables.

• Su valor no depende de otra variable

• Es la variable manipulada en un experimento

• Su comportamiento se pretende explicar o predecir en función de

• Es el evento que se espera que cambie cuando se manipula la VI.

• Tiene algún efecto sobre la variable dependiente, así que deben