Está en la página 1de 12

1. ¿Cuáles son las diversas etapas implicadas en un proyecto de análisis estadístico?

Comprender el problema de investigación

Explorar los datos.

Preparar los datos para el modelado mediante la detección de valores atípicos, el tratamiento de
los valores perdidos, la transformación de las variables, etc.

Ejecutar el modelo y analizar el resultado.

Validar el modelo utilizando un nuevo conjunto de datos.

Empezar a aplicar el modelo y realizar un seguimiento de los resultados para analizar el


rendimiento del modelo durante un período de tiempo.

2. ¿En qué consiste la estadística descriptiva?

Tienen por objeto fundamental describir y analizar las características de un conjunto de datos,
obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre las
relaciones existentes con otras poblaciones, a fin de compararlas.

3. ¿En qué consiste la inferencia estadística?

Es una parte de la Estadística que comprende los métodos y procedimientos para deducir
propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (una
muestra).

4. ¿Por qué la limpieza de datos juega un papel vital en el análisis estadístico?

La limpieza de datos incluye encontrar, corregir o eliminar datos erróneos de una base de datos.

El proceso permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y


luego substituir, modificar o eliminar estos datos sucios ("data duty").

Con esto se busca que los datos obtenidos se encuentren en las condiciones adecuadas al
momento de realizar los análisis estadísticos pertinentes a la investigación.

Podría tomar hasta un 80% del tiempo de trabajo, por lo que es una parte crítica de la tarea de
análisis.

5. ¿Qué es la regresión lineal?

La regresión lineal es una técnica estadística donde la puntuación de una variable Y se predice a
partir de la puntuación de una segunda variable X siguiendo una recta descrita por un intercepto y
una pendiente.

Se dice que X es la variable predictora e Y la variable respuesta.

6. ¿Qué es mejor tener buenos datos o buenos modelos? Y ¿cómo se define "bueno"?

Una buena información de partida (datos) es sin duda más importante que los buenos modelos.
Si la calidad de los datos no es de buena, tendremos que pasar mucho tiempo de limpieza y
procesamiento previo de los datos.

8. ¿Cómo se define bueno?

- Buenos datos: datos pertinentes para el proyecto.

- Buen modelo: modelo pertinente en relación con el proyecto y/o que se generaliza con conjuntos
de datos externos.

9. ¿Necesitamos el término de intersección en un modelo de regresión?

- Garantiza que los residuos tienen una media de cero

- Garantiza que las estimaciones mínimas cuadrados sean imparciales

- La línea de regresión se mueve hacia arriba y hacia abajo, mediante el ajuste de la constante, a
un punto en el que la media de los residuales es cero.

10. ¿Cuáles son los supuestos requeridos para la regresión lineal?

Los datos utilizados en el ajuste del modelo son representativos de la población

La verdadera relación subyacente entre X e Y es lineal

La varianza de los residuos es constante

(homoscedástica, no heterocedástica)

Los residuos son independientes.

Los residuos se distribuyen normalmente.

11. ¿Qué es una "distribución normal"?

Los datos se distribuyen generalmente de diferentes maneras con un sesgo hacia la izquierda o
hacia la derecha, etc... Sin embargo, hay casos en los que los datos se distribuyen alrededor de un
valor central sin ningún sesgo de distribución, formando una curva en forma de campana.

10. ¿Qué es la colinealidad y qué hacer con él? ¿Cómo eliminar multicolinealidad?

Colinealidad / Multicolinealidad:

- En la regresión múltiple: cuando dos o más variables están altamente correlacionados

- Proporcionan información redundante

- Los errores estándar de los coeficientes de regresión de las variables afectadas tienden a ser
grandes

- La prueba de hipótesis de que el coeficiente es igual a cero puede conducir a un error de


rechazar falsamente la hipótesis nula de ningún efecto de la explicativo (error tipo II)

- Lleva a sobreajuste
Cómo eliminar la multicolinealidad:

- Elimine algunas de las variables afectadas

- Utilice regresión con componentes principales: da predictores no correlacionados

- Combine las variables afectadas

- Utilice la regresión contraída (ridge)

- Utilice la regresión parcial por mínimos cuadrados (PLS)

Cómo detectar la multicolinealidad:

- Se observan grandes cambios en los coeficientes individuales cuando se añaden o eliminan una
variable predictora

- Se observan coeficientes de regresión insignificante para los predictores afectados pero también
un rechazo de la

hipótesis conjunta de que los coeficientes son todos cero (prueba F) - VIF: es la proporción de las
varianzas del coeficiente cuando se ajusta el modelo completo dividido por la varianza del
coeficiente cuando se ajusta con él.

- Regla de oro: VIF > 5 indica multicolinealidad (aunque otros autores consideran 10 y otros 20
como puntos de corte).

- Matriz de correlación parcial.

12. Diagnóstico, ¿Cómo comprobar si el modelo de regresión se ajusta bien a los datos?

R cuadrado / R cuadrado ajustado:

- R2 Describe el porcentaje de la variación total descrito por el modelo

- R2 siempre aumenta cuando se añaden nuevas variables: el R2aj incorpora grados de libertad del
modelo para ajustar el R2 al aumentar las variables predictoras.

Prueba F:

- Evaluar la hipótesis "H0: todos los coeficientes de regresión son iguales a cero" Vs "H1: al menos
uno no es cero"

- Indica si el R2 es confiable

RMSE:

- Es una medida absoluta de ajuste (mientras que R2 es una medida relativa de ajuste)

13. ¿Qué es la validación cruzada?

Es una técnica de validación de modelos para evaluar si los resultados de un análisis estadístico
pueden ser generalizados a un conjunto de datos independientes.
Se utiliza principalmente en entornos en los que el objetivo es la predicción y se quiere estimar la
precisión con un modelo. El objetivo de la validación cruzada es definir un conjunto de datos para
probar el modelo en la fase de entrenamiento (es decir, conjunto de datos de validación) con el fin
de limitar problemas como el sobreajuste, y obtener una visión sobre si el modelo se puede
generalizar a un conjunto de datos independientes.

13. ¿Qué es la interpolación y extrapolación?

Estimar un valor de 2 valores desconocidos de una lista de valores es de interpolación. La


extrapolación se aproxima a un valor mediante la ampliación de un conjunto conocido de valores o
hechos.

14. ¿Qué significa el valor P o p-valor?

El P-valor se utiliza para determinar la significación de los resultados después de una prueba de
hipótesis y siempre está entre 0 y 1.

Si asumimos un nivel de significación del 5% podemos decir que:

P> 0,05 significa que la hipótesis nula no puede ser rechazada.

P <= 0,05 denota una evidencia en contra de la hipótesis nula es decir, la hipótesis nula puede ser
rechazada.

15. ¿Cuál es la diferencia entre el aprendizaje supervisado un aprendizaje no supervisado?

Se hace referencia al Aprendizaje Supervisado cuando un algoritmo aprende algo de los datos de
entrenamiento y este conocimiento se puede aplicar luego a los datos de prueba.

Si el algoritmo no aprende nada de antemano porque no hay variable de respuesta o porque no


disponemos de datos de entrenamiento, entonces diremos que estamos ante un Aprendizaje no
supervisado.

16. ¿Qué es un outlier o valor atípico? ¿Qué es un inlier? ¿Cómo se detectan los valores atípicos y
cómo se manipulan?

Los valores atípicos:

- Son observaciones que están lejos de las demás observaciones

- Pueden ocurrir por casualidad en cualquier distribución

- A menudo indican un error de medición o una distribución de cola larga


- El error de medición: descartarlos o utilizar la estadística robusta - Distribución de cola larga: gran
asimetría, no puede utilizar las herramientas que suponen una distribución normal

- Los valores atípicos se pueden identificar mediante gráficos o métodos univariantes.

- Los valores atípicos pueden ser evaluados individualmente o ser sustituidos.

- Todos los valores extremos no son valores atípicos.

La identificación de valores atípicos:

- No existe un método matemático rígido

- Ejercicio subjetivo: tenga cuidado

- Boxplots

- Gráficos QQ (cuantiles muestrales Vs cuantiles teóricos)

Manejo de los valores extremos:

- Depende de la causa

- Retención: cuando el modelo subyacente es conocido

- Problemas de regresión: sólo excluye los puntos que presenten un alto grado de influencia en los
coeficientes estimados (distancia de Cook)

Inlier:

- Observaciones que se encuentan dentro de la distribución general de los demás valores


observados

- No perturba los resultados, pero son ? e inusuales

- Un simple ejemplo: una observación registrada en la unidad equivocada (° F en lugar de ° C)

La identificación de inliers:

- Utiliza la distancia a Mahalanobi - Deséchelos

17. ¿Cómo tratar los valores ausentes (datos perdidos o que faltan)?
Si no se identifica ningún patrón en las ausencias entonces los valores ausentes pueden ser
sustituidos por la mediana o media (imputación) o simplemente pueden ser ignorados.

De todas maneras se debe tener cuidado en el porcentaje de valores perdidos que tiene una
variable, por ejemplo, si el 80% de los valores de una variable están ausentes, entonces mejor no
considerar la variable.

Si los datos faltan por azar: la eliminación no tiene ningún efecto de polarización, pero disminuye
el poder del análisis disminuyendo el tamaño efectivo de la muestra

Imputación simple. Sustituir los datos ausentes por los valores medios (o mediana, etc.) de los
restantes datos.

* En general es una mala práctica.

* Si solo queremos estimar la media, la asignación de valores medios preserva la media de los
datos observados.

* Conduce a una subestimación de la desviación estándar.

* Distorsiona las relaciones entre las variables "tirando" los estimadores de las correlaciones hacia
el cero. Recomendado: imputación Knn o por mezcla de Gauss

18. ¿Qué es un falso positivo y un falso negativo?

Falso positivo: informar incorrectamente la presencia de una condición o efecto cuando no existe
realmente. Por ejemplo: test VIH positivo cuando el paciente es en realidad el VIH negativo.

Falso negativo: informar erróneamente la ausencia de una condición cuando en realidad existe.
Ejemplo: no detectar una enfermedad cuando el paciente tiene la enfermedad.

19. ¿Qué es la potencia estadística?

* Sensibilidad de una prueba de hipótesis


* Probabilidad de que la prueba rechace correctamente la hipótesis nula cuando la hipótesis
alternativa es cierta

* Capacidad de una prueba para detectar un efecto, si el efecto existe realmente

* Potencia = P (rechazar H0 | H1 es verdadera)

* A medida que aumenta la potencia, las posibilidades de error de tipo II (falso negativo)
disminuyen

* Se utiliza en el diseño de experimentos, para calcular el tamaño de muestra mínimo necesaria


para que uno pueda razonablemente detectar un efecto.

* Se utiliza para comparar las pruebas. Ejemplo: entre una prueba paramétrico y una prueba no
paramétrica con la misma hipótesis.

20. ¿En que consiste una muestra?

Es un subconjunto limitado extraído de una población con el objeto de reducir el campo de


experiencias. Las propiedades que obtengamos se harán extensivas a toda la población.

21. ¿Que es el muestreo?

En estadística se conoce como muestreo a la técnica para

la selección de una muestra a partir de una población Esto no es más que el procedimiento
empleado para obtener una o más muestras de una población; el muestreo es una técnica que
sirve para obtener una o más muestras de población.

22. ¿Qué es un individuo en Estadística?

Cada uno de los elementos del colectivo (la población) que es objeto estudio.

23. ¿Qué es una población en Estadística?

El conjunto de todos los individuos que son objeto de interés desde un punto de vista estadístico.
24. ¿Que se entiende por probabilidad?

La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al


llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo
condiciones suficientemente estables.

25. ¿Que se entiende por una población homogénea?

Es una población que comparte unas mismas características y se entre sí.

26. ¿Que se entiende por un parámetro estadístico?

Se llama parámetro estadístico, medida estadística o parámetro poblacional a un valor


representativo de una población, como la media aritmética, la proporción de individuos que
presentan determinada característica, o la desviación típica.

Un parámetro es un número que resume la gran cantidad de datos que pueden derivarse del
estudio de una variable estadística.

27. ¿Que se entiende por un estimador?

Se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un


parámetro de una población a partir de los datos proporcionados por una muestra.

En estadística, un estimador es un estadístico (esto es, una función de la muestra) usado para
estimar un parámetro desconocido de la población. Por ejemplo, si se desea conocer el precio
medio de un artículo (el parámetro desconocido) se recogerán observaciones del precio de dicho
artículo en diversos establecimientos (la muestra) y la media aritmética de las observaciones
puede utilizarse como estimador del precio medio.

28. ¿Que se entiende por error de estimación?

Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza.
Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el
intervalo de confianza y, si se quiere mantener o disminuir el error, más ocurrencias deberán
incluirse en la muestra estudiada.

29. ¿Que se entiende por error de muestreo?


Es la imprecisión que se comete al estimar una característica de la población de estudio
(parámetro) mediante el valor obtenido a partir de una parte o muestra de esa población
(estadístico). Este error depende de muchos factores, entre ellos, del procedimiento de extracción
de esa parte de la población (diseño muestral), del número de unidades que se extraen (tamaño
de la muestra), de la naturaleza de la característica a estimar, etc.

30. ¿Que se entiende por una estimación robusta?

La estadística robusta es una aproximación alternativa a los métodos estadísticos clásicos. El


objeto es producir estimadores que no sean afectados indebidamente por valores atípicos
(outliers) o por variaciones pequeñas respecto a las hipótesis de los modelos.

Por ejemplo, la mediana es un estimador robusto de la centralidad de los datos, y no así la media
aritmética.

31. ¿Cuales son las principales debilidades de la media aritmética?

- Es sensible a los valores extremos.

- No es recomendable emplearla en distribuciones muy asimétricas.

- Si se emplean variables discretas o cuasi-cualitativas, la media aritmética puede no pertenecer al


conjunto de valores de la variable. - Es la media aritmética que se utiliza cuando a cada valor de la
variable se le otorga una ponderación o peso distinto de la frecuencia o repetición. Para poder
calcularla se tendrá que tener en cuenta las ponderaciones de cada uno de los valores que tenga la
variable.

32. ¿Que se entiende por una variable?

Una variable es una característica que es medida en diferentes individuos, y que es susceptible de
adoptar diferentes valores.

33. ¿En que consiste una variable cualitativa?

Los datos de características cualitativas son aquellos que no se pueden expresar numéricamente,
corresponden a categorías o niveles. Sí se pueden etiquetar las categorías, es decir, convertir a
valores numéricos antes de que se trabaje con ellos.

Las características cualitativas pueden clasificarse como:


Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados siguiendo una
escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por
ejemplo, leve, moderado, grave

Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de
orden, por ejemplo los colores o el lugar de residencia.

34. ¿En que consiste una variable cuantitativa?

Son aquellas variables que se pueden expresar numéricamente y se obtienen a través de


mediciones y conteos.

Las características cuantitativas pueden clasificarse como:

Variable discreta: Solo puede tomar valores enteros. Es la variable que presenta separaciones o
interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones
indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir.
Ejemplo: El número de hijos (1, 2, 3, 4, 5).

Variable continua: Puede tomar valores reales (con decimales). Es la variable que puede adquirir
cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el peso (2.3 kg, 2.4 kg,
2.5 kg...) o la altura (1.64 m, 1.65 m, 1.66 m...), que solamente está limitado por la precisión del
aparato medidor, en teoría permiten que siempre exista un valor entre dos cualesquiera.

35. ¿Qué son las variables dependiente e independiente?

Según la influencia que asignemos a unas variables sobre otras, podrán ser:

Variables independientes: Son las que el investigador escoge para establecer agrupaciones en el
estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de
confusión, que modifican al resto de las variables independientes y que de no tenerse en cuenta
adecuadamente pueden alterar los resultados por medio de un sesgo.

Variables dependientes: Son las variables de respuesta que se observan en el estudio y que
podrían estar influenciadas por los valores de las variables independientes
PREGUNTAS DEL LIBRO

¿PORQUÉ SE UTILIZAN MUESTRAS EN LA INVESTIGACIÓN SOCIAL?

Hay dos razones: el tiempo y el coste económico. Los datos pueden ser recogidos más
rápidamente y así

publicar más rápido las estimaciones estudiadas.

Otra razón es que el uso de muestras permite que las “limitadas” redes de entrevistadores puedan

abarcar cómodamente la misma, sin tener que recurrir a entrevistadores eventuales, peor
formados y con

más posibilidades de obtener informaciones defectuosas o que se incrementen las


personas que no

contesten.

DEFINA CON CLARIDAD QUÉ ES UNA MUESTRA.

Es la extracción de un población una parte de la misma, no de su totalidad, que ha de ser


proporcional a

la magnitud de la población, que debe ser representativa de dicha población, tanto


cualitativa como

cuantitativamente, y con ausencia de distorsión en la elección de la misma, para aplicar a la misma


los

distintos instrumentos de investigación social.

¿CUÁL ES LA DIFERENCIA ENTRE POBLACIÓN, UNIVERSO Y MUESTRA?

El universo es el agregado teórico de elementos que pueden ser objeto de


observación en una

investigación. La población es el agregado de elementos que pertenece al Universo del que se


extraerá la

muestra. Y la muestra es una parte de la población que se elige para la realización del trabajo de
campo en

las técnicas de investigación social.

DESCRIBA LAS CARACTERÍSTICAS DEL MUESTREO PROBABILÍSTICO.

Proporciona el método más adecuado para seleccionar la muestra que mejor refleje la variación

existente en el conjunto poblacional, que contenga la misma variabilidad/heterogeneidad que se


da

en la población.
Limita los sesgos en la elección de la muestra.

Cada elemento de la población debe tener la misma probabilidad de ser elegido para la muestra.

Conocer esta probabilidad de elección implica la existencia de una seguridad estadística conocida

razonablemente probable, que hace que los resultados puedan ser inferidos estadísticamente a la

población.

¿CUÁLES SON LOS FACTORES QUE INFLUYEN EN LA FIJACIÓN DEL TAMAÑO DE LA MUESTRA

EN EL MUESTREO ALEATORIO SIMPLE?

Los recursos disponibles. Presupuesto y tiempo.

El diseño muestral. El muestreo aleatorio simple exige elementos muestrales que uno
estratificado o

por conglomerados.

La varianza poblacional. Cuanto más heterogénea la población mayor será la varianza y se hará

necesario una muestra de tamaño mayor.

El error muestral. A medida que aumenta la muestra disminuye el error muestral

El nivel de confianza. La probabilidad con la que el investigador afirma que el error no será
superior a

un valor que prefija.

¿QUÉ VENTAJAS APORTA EL MUESTREO ESTRATIFICADO?

Permite obtener un mayor grado de representatividad, disminuyendo el error muestral.

Las poblaciones homogéneas producen muestras con errores muestrales más reducidos.

Se garantiza que las fuentes de diferencia van a estar adecuadamente representadas y
ponderadas

en la muestra.

También podría gustarte