Está en la página 1de 11

T1 : ANÁLISIS EXPLORATORIO DE DATOS

Su objetivo es resumir, identi car, describir

1. Cualitativas o categóricas
1. No ordinales : no hay orden entre las categorías (Sexo, Estado civil, Nacionalidad,…

2. Ordinales : hay una gradación entre las categorías. (Nivel educativo, Estado de salud,
Consumo de alcohol,… )

- Diagrama de barras o diagrama de sectores

2. Cuantitativas o numéricas
1. Discretas : puede tomar un número nito de valores (nº no decimales ) . (Nº de delitos en
un n de semana, Nº denuncias por maltratos en un mes, Nº hijos,… )

2. Continuas : dentro de un intervalo todos los valores son posibles. (Nº decimales) (Altura,
Peso, Tasa de alcoholemia, Glucosa en sangre,…)

- ( = no incluye, [ = incluye .

- Histograma o Estadística descriptiva

HISTOGRAMA :

1. Ponemos todos los datos en la columna A y los intervalos en la columna B

2. Para obtener rangos/intervalos :

- Seleccionamos una celda para el valor min : =min (seleccionar todas las celdas de datos)

- Seleccionamos otra celda para el valor máximo : =max (seleccionar todas las celdas de
datos)

3. Datos -> Análisis de datos -> histograma :

- Rango de entrada = seleccionar todas las celdas que contienen los datos

- Rango de clases = seleccionar todas las celdas que contienen los intervalos

- Rango de salida = pulsar celda donde queremos que nos ponga el resultado

- Marcar crear grá co

1
fi
fi
fi
fi

- La construcción de los histogramas no es única, depende de la agrupación de los datos!!

- Si hay comparaciones las podemos hacer arriba o a los lados

- Solo nos muestra en la parte de abajo el dato del intervalo de la derecho (ej: si el intervalo es
4-5, nos pondrá un 5)

ESTADÍSTICA DESCRIPTIVA :

1. Ponemos todos los datos en la columna A

2. Datos -> Análisis de datos -> estadística descriptiva :

- Rango de entrada = seleccionar todas las. celdas que contienen los datos

- Agrupado por columnas

- Rango de salida = pulsar celda donde queremos que nos ponga el resultado

- Marcar resumen de estadísticas

- Si nos preguntan la distribución : uniforme (en todos los intervalos por igual) no uniforme (en
unos intervalos más que en otros)

- Comentar los resultados de estadístico resumen : media, desviación, máximos y mínimos

DIAGRAMA DE BARRAS :

Seleccionamos todos los datos

Insertar -> elegimos el diagrama de barras

DISTRIBUCIÓN NORMAL :

DISTR.NORM.N (x; m; s; acumulado)

- x : valor del que se desea calcular la distribución

- m : media

- S : desviación estándar

- Acumulado : 1

ENUNCIADOS :
- ¿Cuál es la distribución de los decisores a lo largo de esta escala de motivación? ¿Es uniforme?
Las posiciones intermedias, ¿son las más comunes?
- Realizar la descripción grá ca de los datos y calcular los estadísticos resumen de la muestra,
comentando los resultados.
- Obtener las representaciones grá cas y los estadísticos resumen que ayuden a decidir si
ACORN tiene razón.
- ¿Hay diferencias en las distribuciones de las puntuaciones de los dos grupos?
- Comparar las sentencias de los jueces.
- Comparar la distribución de homicidios en las diferentes regiones.
- Estudiar y representar estos datos.
- Estudiar estos datos. Utilizar grá cas y estadísticos.

2
fi
fi
fi
T2 :REGRESIONES

Y = variable a estudiar , X = explica y

Estudio de la causalidad / relación lineal entre 2 variables.

REGRESIÓN SIMPLE : (Ej 2.1)

1. Datos -> análisis de datos -> regresión

- Rango y de entrada : columna datos y

- Rango x de entrada : columna datos x

- Marcamos rótulos

- Rango de salida : celda en el que nos

- Curva de regresión ajustada

Comentario :

- Coe ciente de correlación múltiple : relación directa entre x e y (cuanto mas cercano a 1
mayor relación)

- Correlación positiva ( +A = +B ) directamente proporcional

- Correlación negativa ( -A = -B ) inversamente proporcional

- Coe ciente de determinación R^2 : el porcentaje de casos de la variable y que explica la


variable x

- La Tercera tabla nos da la recta, que podemos calcular si llegamos a la conclusión de la que
las dos variables están relacionadas ( intercepción = y, el otro dato es x) -> recta = y + dato
x*x (Ej 2.1)
- El índice de la última tabla si es + muestra relación directamente proporcional, y si es -
relación inversamente proporcional

- La recta de regresión : forma de la relación

- El diagrama o la recta de dispersión nos da información sobre la relación de las dos


variables:

- Seleccionamos los puntos rojos y los eliminamos

- Seleccionamos los azules y con el botón derecho del ratón seleccionamos agregar línea
de tendencia (Ej 2.1)

- Puntos agrupados en una franja con pendiente positiva = nos indica que al tomar x valores
mas altos la y tmb toma valores más altos = relación directa entre las variables.

- Puntos se agrupan en una franja de pendiente negativa hay una relación inversa (a + de una
variable, - de la otra).

- Si los puntos están dispersos los indica que no hay relación entre las variables.

COEFICIENTE DE CORRELACIÓN : (Ej 2.3)

- Podemos calcular el coe ciente de correlación de varias variables para ver cuál es la que más
in uye :

1. Datos -> análisis de datos -> coe ciente de correlación

- Rango de entrada (todos los datos = tasas y variables)

- Marcamos columnas y Rótulos en 1ª la

- Rango de salida : celda en la que insertar la solución

- La primera columna es la que nos proporciona esa información

3
fl
fi
fi

fi
fi
fi
REGRESIÓN MÚLTIPLE : (Ej 2.3)

Datos -> análisis de datos -> regresión

- En lugar de una variable x introducimos 2 (las dos columnas tienen que estar una al lado de la
otra) (en este quitamos la curva de regresión.

- El objetivo es explicar mejor la variable Y, así que hemos de comparar el modelo (la recta de
regresión) que tiene una variable X con el modelo que tiene 2 variables X, comparando en
concreto el coe ciente de determinación de ambos.

ENUNCIADOS :

- ¿Existe relación entre el índice de exposición y la mortalidad por cáncer? ¿La relación es
positiva? ¿Por qué? ¿Qué signi ca que la relación sea positiva? ¿Qué mortalidad tendría un
condado con un índice de exposición de 1,5?
- Determina la variable con mayor coe ciente de correlación con la variable Tasa (número de
delitos denunciados).
- Realiza una regresión simple para explicar la variable Tasa, a partir de la variable del apartado
anterior. ¿Cuál es el coe ciente de determinación asociado?
- Compara los coe cientes de correlación de los apartados b y d,. ¿A qué se debe el incremento
tan pequeño?
- Realiza una regresión múltiple para explicar la variable Tasa, a partir de las variables Desp0 y
Sur. Compara y comenta el coe ciente de correlación obtenido con los anteriores. 


4
fi
fi
fi
fi
fi
fi
T3 : INFERENCIA EN UNA POBLACIÓN

1 COLA > < : direccional


2 COLAS = ≠ : bidireccional

- Consiste en a partir de los datos decir algo sobre toda la población. Si la muestra es muy
grande será mas able.

- Intervalo de con anza : dos valores entre los que esta la media de la población. Si estos dos
valores están muy cercanos nos darán una estimación que sirve, mejor predicción, si están
más alejados será más pobre.

SI TENEMOS MENOS DE 30 DATOS HACEMOS UN HISTOGRAMA

µ= Media de la población
S=desviación típica de la muestra
N= tamaño de la muestra
X barra = media muestral de una población
SE = Error típico
S / RAÍZ ( N ) : error estándar

PREGUNTA EXAMEN :
Mu = µ = media de la población.

- Nos pueden pedir dar una aproximación de µ -> intervalo de con anza
- Preguntas relacionadas con la media (para X nos dan un valor concreto)

- ¿Vale la media mu = X? -> contraste de hipótesis o intervalo de con anza (ej : si me


preguntan si mu = 5 y en el intervalo de con anza está el número 5, la respuesta es que sí)

- ¿Vale la media mu</>X? -> contraste de hipótesis

INTERVALO DE CONFIANZA :

1. Análisis de datos -> Estadística descriptiva :

- Rango de entrada = seleccionar todas las celdas que contienen los datos

- Agrupado por columnas

- Rango de salida = pulsar celda donde queremos que nos ponga el resultado

- Marcar resumen de estadísticas

- Marcar nivel de con anza (si no nos dicen nada lo dejamos al 95%)

2. Intervalo : media - nivel de con anza en una celda y en la otra media + nivel de con anza

3. T = (xbarra - mu^0) /error

- T tiene que ser positivo, si es negativo ponemos -t

- La t no es la misma de un contraste de hipótesis que de un intervalo de con anza

- Mu^*0 es el nº que nos da el enunciado (ej: pasan 15h en el patio ? , mu^0 = 15)

4. P valor = DISTR.T (t ; cuenta -1; 1) si nos pide >/< o (t; cuenta - 1; 2) si nos pide =

- si p valor es > 0,05 no rechazamos H0, si pvalor < 0,05 lo rechazamos

- Si nos pregunta si un dato exacto está en el intervalo de con anza = xbarra-t*error/ raíz mu0;
xbarra-t*error/ raíz

5
fi
fi
fi
fi
fi

fi
fi
fi
fi
fi
SI NO TENEMOS ESOS DATOS (Ej 3.6)
Intervalo de con anza ( media + nivel de con anza ) ( media - nivel de con anza )
T = distr.t.inv ( probabilidad; n-1)

probabilidad (si nos dice que es al 95% ponemos 0,05)


Nivel de con anza = t * (S / Raíz [ N ] )

CONTRASTE DE HIPÓTESIS
- Puede ser :

- Bilateral : H0 : µ = 50 , H1 : µ ≠ 50

- Unilateral : H1 : µ = 50, H1 µ < 50

1. Análisis de datos -> Estadística descriptiva :

- Rango. De entrada = seleccionar todas las celdas que contienen los datos

- Agrupado por columnas

- Rango de salida = pulsar celda donde queremos que nos ponga el resultado

- Marcar resumen de estadísticas

- Marcar nivel de con anza (si no nos dicen nada lo dejamos al 95%)

2. Miramos la media y vemos si se cumple la direccionalidad

3. T = (xbarra - mu^0) /error típic

- T tiene que ser positivo, si es negativo ponemos -t

- La t no es la misma de un contraste de hipótesis que de un intervalo de con anza

- Mu ^0 es el nº que nos da el enunciado (ej: pasan 15h en el patio ? , mu^0 = 15)

4. P valor = DISTR.T (t ; cuenta -1; 1) si nos pide >/< o (t; cuenta - 1; 2) si nos pide =

- si p valor es > 0,05 NO rechazamos h0 (se cumple la igualdad)

- Si p valor < 0,05 SÍ rechazamos H0 (no se cumple la igualdad, sí la direccionalidad)

ENUNCIADOS : una muestra


- ¿Proporcionan los datos su cientes evidencia para concluir que la exposición a la enzima
Bacillus subtilis reduce el ujo respiratorio? ¿Convencería a un jurado?
- ¿qué puede concluir el investigador? ¿Con rma el estudio la media de 15 horas?
- ¿Tiene razón el abogado? ¿La duración media es inferior a 25 minutos? Justi ca tu respuesta.
- De acuerdo con estos datos, ¿qué podemos decir sobre la teoría de que los delincuentes
tendrían que obtener valores bajos en esta escala? ¿Es esta teoría correcta? Justi ca tu
respuesta
- ¿Están estos datos de acuerdo con los datos nacionales de la ATF? Justi ca tu respuesta.
- a) Calcula el error típico. Explica brevemente qué representa ese error. b) Calcula un Intervalo
de con anza al 99% para la media de la población de donde se ha extraído esa
muestra.
- Según estos datos, ¿podríamos decir que la población considera en promedio los 18 años
su ciente edad para llevar armas o piensa que es necesario tener mayor edad?
- a) A partir de estos datos, ¿qué herramienta estadística aplicarías para dar esta información en
el periódico? b) ¿Darías por buena la estimación de que había 3000 personas?
- A partir de estos datos, ¿crees que son efectivas las distintas actuaciones utilizadas?
- ¿podríamos dar por cierta la a rmación del gobierno en términos estadísticos dados los
siguientes datos del número de infracciones en los últimos 10 años por cada 100000
habitantes?

6
fi
fi
fi
fi
fi
fl
fi
fi
fi
fi
fi
fi
fi
fi

fi
T4 : ANÁLISIS DE DOS MUESTRAS .
(< / > siempre va en H1)

SE = error típico

1. Identi car si las variables son independientes o emparejadas y establecer las hipótesis

2. Contraste de hipótesis CON o SIN dirección

- CON (= son 2 colas, >/< es 1 cola)

- SIN = intervalo de con anza

- INDEPENDIENTES : contraste de hipótesis


1. Comprobar si son variables son iguales o desiguales : análisis de de datos -> prueba f para
variables de dos muestras

2. Comprobamos el p valor (P(F<=f) una cola) (</> 0,05) (si es mayor NO rechazamos, si es
menor sí rechazamos )

Si no rechazamos= SON IGUALES -> prueba t para dos muestras suponiendo varianzas
iguales

- Comprobamos el p valor de la 2ª tabla (P(T<=t) una cola) y decidimos si rechazamos o no (Ej


4.1)

Si rechazamos : SON DISTINTAS : método no combinado

- Calculamos SE ( =√ 1 ^2 + 2 ^2)

- SE = S/√N (S = desviación típica)

- Calculamos ts = ( 1− 2 ) / SE

- Calculamos p-valor =DISTR.T (t ; cuenta -1; 1) si nos pide >/< o (t; cuenta - 1; 2)si nos pide =

- Si nos piden intervalo de con anza : [( 1 − 2)− , ( 1 − 2)+ ]

- ( media mayor - media menor ) +- t * SE

SON IGUALES : método combinado

- Calcular estadísticas descriptivas de las 2 variables -> SE = Error típico

- Calculamos SE ( = √Sc2 *(1/n1 + 1/n2)

- Sc2 = varianza agrupada

- Calculamos t = distr.t.inv (0,05; 1 + 2 −2)

- (n1 = cuenta tabla 1, n2= cuenta tabla 2)

SON DISTINTAS : método no combinado

- EMPAREJADAS : esta relacionado / se presentan por parejas … (EJ 4.2, 4.4, 4.8)
- Intervalo de con anza ( ej 4.9 )

1. Calculamos las diferencias de las muestras ( datos muestra 1 - datos muestra 2)

2. Hacemos la estadística descriptiva con esos datos

3. Intervalo de con anza ( media - nivel de con anza ) ( media + nivel de con anza )

7
fi
fi
fi
𝑆
𝑆
𝐸
𝐸
𝑥̅
fi
𝑥̅
𝑆
𝐸
fi
𝑛
𝑆
𝑛
𝐸
𝑥̅
fi
𝑥̅
𝑡
𝑆
𝐸
𝑥̅
𝑥̅
𝑡
𝑆
𝐸
fi
- Contraste de hipótesis :

1. Prueba t para media de dos muestras emparejadas


1. Comprobar la direccionalidad

2. Comprobamos el p valor de la 2ª tabla (P(T<=t) una cola) y decidimos si rechazamos o


no

SI NO TENEMOS LOS DATOS SUFICIENTES :


- Hacemos SMax / SMin. Si es <2 son iguales y si es > 2 son desiguales (S = desviación
típica)

ENUNCIADOS : dos muestras independientes


- ¿Qué se puede decir a la vista de estos datos?
- ¿Estas nuevas estrategias, son e caces en la reducción de los delitos? ¿Por qué?
- ¿Con rman estos datos las a rmaciones de Peete? Justi ca tu respuesta.
- A la vista de estos datos, ¿qué puede concluirse sobre la e cacia de una preparación especí ca
para los jueces?
- Para estudiar si efectivamente existen diferencias, se pide calcular un intervalo de con anza al
95% para la diferencia de medias en las notas de acceso de ambas titulaciones a partir de las
dos muestras recogidas en el chero Excel.
- a) Hay evidencia estadística de que el fármaco B es más efectivo que el A? b) Determina un
intervalo de con anza al 95% para la diferencia de las medias poblacionales (fármaco B –
fármaco A). Explica su signi cado.
- a)  ¿Hay evidencia de que los países de la UE tienen una tasa de desahucio menor? b)
 Determina un intervalo de con anza al 95% para la diferencia de medias.
- ¿Hay evidencia estadística a favor de esta teoría?
- ¿Cuál es en general el rendimiento de las mujeres en promedio? ¿Cuál es en general el
rendimiento de los hombres en promedio?

8
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
TEMA 5 : ANÁLISIS DE 2 O MÁS MUESTRAS

- En este tema solo hay muestras independientes

H0 : M1 = M2 = M3 = M4

H1 : No son todos iguales

Anova = test para comparar varias variantes

EXCEL :

1. Datos -> Análisis de datos -> Análisis de varianza de un factor

2. Calcular la desviación típica a partir de la varianza (DESV. TÍP. = RAÍZ VARIANZA)

3. Calculamos SMax y SMin (Valor máx / Valor min), si es <2 sí que se cumplen las condiciones
de aplicabilidad

4. Comparamos el p valor (Probabilidad de la 2ª tabla) con 0,05. Si es menor rechazamos la


hipótesis nula.

- Cuando rechazamos la igualdad de medias en un test anova podemos complementar el


estudio considerando las dos muestras por medias más parecidas. Podemos hacer un test a
esas dos muestras y determinar si las medias de sus poblaciones son iguales o no.

- Análisis de datos -> prueba t para dos muestras suponiendo variantes iguales

- Miramos el p valor (en este caos el de 2 colas porque ya hemos rechazado la igualdad) 


9
TEMA 6 : ANÁLISIS DE DATOS CATEGÓRICOS

Test de independencia : 1 muestra 2 variables (ej 6.1, 6.3, 6.4 …)

Test de homogeneidad : 2 muestras 1 variable

Test de bondad de ajuste : 1 muestra 1 variable

- Tenemos una información general (con la que calculamos unos “datos esperados” si fuera cierta
la información que me han dado ) y unos datos observados ( hay que comparar esperados con
observados) -> TEST X2

- H0 = Los datos observados = datos esperados

- H1 = No lo son

A) Nos preguntan iguales

5. Hacemos una la con lo observado (incluyendo el total) y otra la los esperados

6. Multiplicamos total de observados por % esperados

7. Estadístico chi-2 -> Comparamos los datos : (observado-esperado) 2 / Esperado

8. P valor = DISTR.CHI (valor estadístico chi; número de categorías -1) y lo comparamos con
0,05

B) Nos preguntan > / <

- P = datos observados

- P ^ = datos esperados

1. A simple vista, según los datos del enunciado, ¿se cumple la direccionalidad?

2. Hacemos tabla y Calculamos estadístico chi y Pvalor (LO DIVIDIMOS ENTRE 2 PORQUE HAY
DIRECCIONALIDAD)

————

1. Es un test de independencia si todos los datos se han recogido a la vez

2. Es un test direccional si nos pregunta CÓMO es la relación (dirección) , no solo si están


relacionados

3. El test direccional solo se puede hacer con 2 categorías . Si tenemos más tenemos que juntar
las categorías.

——————

Proporción = p^

10
fi
fi
OBSERVADOS :
- Siempre tenemos que tener 2 variables , si hay más hay que juntarlos

Consumen drogas No consumen Total (A)

Homicidios O1 O3 A1

Hurtos O2 O4 A2

Total (B) B1 B2 Total (C)

ESPERADOS :
Consumen drogas No consumen

Homicidios E1 = (A1*B1)/C E3 = (A1*B2)/C

Hurtos E2 = (A2*B1)/C E4 = (A2*B2)/C

ESTADÍSTICO CHI :

( Observado - Esperado )2 / Esperado

Consumen drogas No consumen

Homicidios EC 1 = ( O1 - O1 )2 / O1 EC 3 = ( O3 - O3 )2 / O3

Hurtos EC = ( O2 - O2 )2 / O2 EC 4 = ( O4 - O4 )2 / O4

CHI SQUARE = SUMA (EC1 + EC2 + EC3 + EC4 )

PVALOR = DISTR.CHI (CHI SQUARE ; nº variables -1 ) = DISTR.CHI (CHI SQUARE ; 1) /2 ( si es


direccional, es decir, si es > o < )

No siempre serán 2 variables (Ej 6.9)

11

También podría gustarte