Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TEÓRICO - EPA Primer y Segundo Parcial
TEÓRICO - EPA Primer y Segundo Parcial
– Población: conjunto definido, limitado y accesible del universo que forma el referente para la
elección de la muestra. Es el grupo al que se intenta generalizar los resultados del estudio. Para el
enfoque cuantitativo, la población debe situarse en torno de características de contenido, lugar y
tiempo.
– Muestra: fracción de una totalidad que constituye la población. Es una réplica. Se estudian para
describir a las poblaciones, ya que es más sencillo que el de la población completa.
– Muestra representativa: tiene que contener las características relevantes de la población en las
mismas proporciones en que están incluidas en tal población. Para evaluar la representatividad de
la muestra se compara la media muestral con la media poblacional, si este parámetro se
desconoce se puede estimar tratando de encontrar las medias obtenidas en trabajos anteriores
que han analizado las mismas variables. Siempre hay un grado de error en las estimaciones (error
muestral), una de las maneras de minimizarlo es diseñando un plan de muestreo adecuado.
Tipos de muestras:
– aleatorio simple: cuando se conocen todos los elementos que conforman la N. Cada elemento
tiene la misma posibilidad de ser elegido para ser parte de la muestra.
El proceso consiste en una tabla de dígitos al azar o números aleatorios en una planilla de cálculo y
seleccionar a los que coinciden con el número al azar y el orden de la lista, o usando un programa
estadístico que los seleccione aleatoriamente de una lista general (que es la N).
Ejemplo: Selección de la muestra de usuarios de un servicio; selección de editorial para análisis de
contenido.
– por conglomerados o racimos: se usa cuando no es posible tener una lista de todos los
elementos de la N. Es clave cuando N es grande y dispersa.
Homogéneos entre sí, y heterogéneos internamente.
La técnica consiste en: dividir a la población en grupos, luego se elige aleatoriamente algunos, y
posteriormente se toma una muestra aleatoria de cada uno de los grupos que se han
seleccionado.
Logra una muestra más precisa a un menor costo ya que se usa cuando hay variación dentro de
cada grupo.
Es común en los diseños polietápicos y en las muestras de zona geográfica. Cuando se muestrean
conglomerados desiguales, pueden utilizar el muestreo probabilístico proporcional al tamaño para
que la probabilidad de selección del conglomerado sea igual a la proporción de unidades que
contiene.
Ejemplos: si la población son escuelas, universidades, hospitales, distritos escolares, entonces las
unidades muestrales pueden ser alumnos, docentes, personal, pacientes o ciudadanos.
– Muestreo polietápico: primero se obtiene una muestra de unidades primarias, más amplias que
las siguientes; de cada unidad primaria se toman unidades secundarias, y así sucesivamente hasta
llegar a las unidades más elementales.
Ejemplo:
1º Etapa: muestra de ciudades.
2º Etapa: muestra de familias.
3º Etapa: muestra de individuos.
– Muestreo por cuotas: consiste en formar estratos de la población sobre la base de ciertas
características (edad, sexo, ocupación) y en procurar que estén representadas en proporciones
semejantes a las que existen en la población. Una vez definida la cuota se eligen los primeros que
se encuentran y que cumplen esas características.
Be: pueden hacerse estudios rápidos y económicos.
Aplicación: Una empresa quiere estimar la aceptación del sabor de un nuevo producto de la línea,
para lo cual invita a la degustación del producto en un puesto comercial utilizando un muestreo
por cuotas.
– Muestreo opinático o intencional: se basa en la opinión del investigador para constituir una
muestra de sujetos en función de su carácter típico.
Ejemplo: Encuesta sobre auto-cuidado a personas que han recibido trasplante hepático en un
hospital determinado.
– Muestreo casual o incidental: muestra conformada por sujetos accesibles y presentes en un
lugar y momento preciso. Los sujetos se incluyen en el estudio a medida que se presentan, y hasta
que la muestra alcance el tamaño deseado.
Ejemplo: Encuestas en vía pública que se realizan en un día y horario determinado.
– Muestreo por redes (bola de nieve): consiste en localizar a algunos individuos según
determinadas características. Se usa en poblaciones marginales o de difícil acceso. Se basa en
redes sociales, en amistades. Cuando se encontró el primer representante, éste puede conducir a
otro, y ése a un tercero, y así sucesivamente hasta conseguir una muestra suficiente.
Ejemplos: Miembros de una secta. Adictos que rechazan la instancia de rehabilitación. Mujeres
golpeadas.
propiedades:
1- insesgamiento: cuando la media de su distribución en el muestreo coincide con el parámetro a
tamaño muestral.
eficiencia: puede ser absoluta o relativa. Un estimador es eficiente en sentido absoluto cuando
2-
la varianza del estimador es mínima.
Un estimador es más eficiente que otro si tiene menor varianza siendo ambos insesgados.
3- consistencia: cuando en caso de que la muestra sea muy grande, puedan estimar casi sin error.
El intervalo de confianza resulta útil cuando se quieren evaluar el tamaño que debe tener una muestra para
obtener un determinado grado de precisión en la estimación de parámetros poblacionales.
Un intervalo de confianza consiste en dos valores a y b, siendo b mayor que a, de manera tal que: 𝑃(𝑎 ≤ 𝜇 ≤
𝑏) = 1 − ∝
𝑎: límite inferior del intervalo de confianza
𝑏: límite superior del intervalo de confianza
El nivel de confianza coeficiente de confianza, depende del investigador, valores más utilizados se
encuentran entre 0,90 y 0,99, expresado en porcentaje 90% y 99%.
El nivel de significación es 𝛼. Los valores más utilizados se encuentran entre 0,01 y 0,1. En porcentaje: entre
1% y 10%.
¿Que indica un intervalo de confianza del 95%?
-Que si el investigador repitiese su estudio en las mismas condiciones pero con distintas muestras
aleatorias, 95 de cada 100 veces obtendrá intervalos que contendrán el verdadero parámetro poblacional y
5 veces obtendrá intervalos que no lo contienen.
Por lo tanto resulta errado interpretar que hay una probabilidad de 95% que el verdadero valor se
encuentre dentro del intervalo.
Intervalos para 1 población:
1 ✔ Normal o Normal Z
desconocida
2 ❌ Normal o
desconocida
n > 30 Normal Z
4 Normal Ji - Cuadrado
n-1 gl
5 Binomial Normal Z
2 Diferencia de
medias
❌ Normal o
desconocida
> 30 ✔ Normal Z
3 Diferencia de
medias
❌ Pero se
supone que
Normal < 30 ✔ T - Student
nx + ny - 2
son iguales
4* Diferencia de
medias
Normal ❌ T - Student
nx - 1 gl
CASO 4* Al considerarse que las variables son dependientes, se genera una nueva variable denominada
diferencia (d). Se calcula la diferencia para cada par de los valores de la variable x e y, entonces d = x – y.
Debido a que por propiedades de la varianza de dos variables, no puede aplicarse la varianza de la suma de
dos variables es igual a la suma de sus varianzas ya que son dependientes y entraría en juego la covarianza
de x e y, se realiza este cambio de variable.
Valor p.
También llamado p valor, es el peso de la evidencia de la prueba o nivel observado de significancia. En la
medida que :
1. El valor p sea menor, más fuerte es la conclusión del rechazo de H0; o sea si p es muy
pequeño nos está diciendo que el valor observado ha sido un valor muy lejano al valor
esperado propuesto, y que siendo válida dicha hipótesis es muy poco probable que
aparezcan valores del orden del valor observado.
2. Si p es grande, lo que está diciendo es que el valor observado es parecido al valor
hipotético propuesto, y que son valores muy probables de presentación cuando la
hipótesis propuesta es válida.
Relación entre ∝, β, y tamaño de muestra:
- Una vez conocidos dos de los tres valores, se puede calcular el otro.
- Para un determinado nivel de significación ∝ al aumentar el tamaño de la muestra se reduce β
- Para un determinado tamaño de muestra, al disminuir ∝ aumenta β y viceversa.
REGRESIÓN SIMPLE:
Busca explicar el comportamiento de una variable endógena, explicada o dependiente (𝑌),
usando la información de una variable exógena, explicativa o independiente (𝑋).
Es la recta que pasa más cerca de todos los puntos analizados.
– REGRESIÓN: encontrar la ecuación del modelo que mejor ajuste a los datos OBS.
– CORRELACIÓN: obtener el grado de asociación entre las variables.
– LINEAL: la ecuación se puede explicar por medio de la ecuación de la recta.
– SIMPLE: hay una sola variable independiente en el modelo.
Analizo la sumatoria de las distancias entre cada valor dependiente en análisis (y) y los predichos
por la recta de regresión (y sombrero).
Los analizo al cuadrado para evitar valores negativos (neutralizaría las distancias, ya que la recta
actúa como “promedio”). De no ser así, la sumatoria sería igual a 0 (similar al desvío).
La derivada nos dice qué tanto cambia una variable con respecto a otra, y que hay un punto en
donde cambia de signo, es decir, donde la derivada es 0: habrá que encontrar los valores de los
parámetros b0 y b1 que minimizan esa expresión. Es decir que anulan (“anulan” = 0)
simultáneamente las derivadas parciales de la función.
Para aplicar la derivada, primero se hará en función de b0 y en segundo lugar en función de b1,
dejando todo el resto constante. Luego de derivar, aplicar distributiva y dividir por 2 ambas
ecuaciones, queda así:
Armo el sistema de ecuaciones, trabajando con b0 y b1 como funciones de la ecuación (por eso
La resolución de sistemas de ecuaciones de Gauss, puede resolverse:
A)-con determinantes:
entendiendo que:
despejo b0 y obtengo:
B)-covarianza:
C)-Matricial: → (traspuestas)
(resuelvo como con múltiple: saco determinante, adjunta, saco b0 y b1).
Estimamos el valor de Y en función de X. Por lo tanto, cada valor de Y tendrá su pronóstico sobre la
recta de regresión (por esto se hace de forma vertical).
Por lo tanto, hay un margen no explicado por la recta y es la distancia entre cada punto y su
pronóstico sobre la misma.
Por lo tanto:
Donde:
. n es la cantidad de pares
Sabiendo que:
→
Varianza de la estimación
Coeficiente de correlación lineal M
ide el grado de asociación lineal entre las variables
interpretación de sus valores:
REGRESIÓN MÚLTIPLE: explica el comportamiento de una variable endógena, explicada o dependiente (Y),
usando la información proporcionada por los valores tomados de variables exógenas, explicativas o
independientes (X)
Hay más de una variable explicativa o independiente
Hablamos no de una recta, sino de un plano de regresión, con 3 dimensiones.
GAUSS:
Para obtener los valores de b0, b1 y b2, se utiliza la solución matricial:
Bondad de ajuste: la lógica y medidas son las mismas que en simple, solo difiere k: es el número de
variables dependientes.
Test de Significatividad Prueba para testear si los estimadores son suficientes para el modelo.
Test de Significatividad Global
Testea si hay al menos una variable que no contribuya al modelo: H0 es beta1=beta2=betan=0, y si
no la rechazo quiere decir que al menos una variable NO es significativa para el modelo, porque es
igual a 0. Yo busco testear que los beta sean distinto a 0 y decir que es un buen modelo para
predecir la variable Y. No estimo beta 0 porque yo busco estimar si x1 y x2 son significativas para
explicar Y.
En el F estadístico podemos ver que el denominador es el desvío estándar de los errores del
modelo, y por lo tanto en el numerador sería el desvío estándar de la parte explicada del modelo.
Vemos así si hay al menos una variable que explica al modelo.
Test de significatividad individual
Testeamos de forma individual cada estimador. Planteo un test de significatividad para cada
parámetro: quiero saber si b1 es buen estimador de beta 1, si b2 es buen estimador de beta 2. Eso
me dirá si cada variable x es significativa para explicar a la variable Y.
Testeos:
Parámetro beta 1
Si es mayor a 0 el estimador, entonces voy a buscar estimar que beta 1 sea positivo también.
Por lo tanto:
Y si es menor a 0
4. Linealidad
5. Independencia en términos de error: No hay correlación entre los errores de los distintos
puntos
6. Outliers (Datos atípicos): Aquellos valores deben ser identificados ya que pueden producir
sesgos en el análisis
7. Coeficiente de determinación ajustado/ corregido: Permite comparar modelos con distinto
número K de regresores.
El segundo término de la formula muestra un cociente que se agranda a medida que se suman
regresores (k), y esto lo multiplica por la parte no explicada (SCE/SCT) del modelo. De esa forma
valora que parte queda explicada (1 - ese término) al agregar regresores.
Toma el valor 1 cuando el ajuste es perfecto. En cambio, no está acotado por la parte inferior,
pudiendo tomar valores negativos cuando el ajuste realizado es muy malo.
Cuando en un modelo se añade una nueva variable explicativa 𝑅̅2 puede aumentar, quedar igual o
disminuir su valor. Para que aumente es necesario que la variable añadida tenga cierto poder
explicativo. Por el contrario, si la variable añadida tiene un poder pequeño o nulo, el coeficiente
de determinación corregido disminuirá su valor, penalizándose de esta forma su introducción.
El uso de este coeficiente se justifica en que a medida que añadimos variables a una regresión,
el coeficiente de determinación sin ajustar tiende a aumentar. Incluso cuando la contribución
marginal de cada una de las nuevas variables añadidas no tiene relevancia estadística.
Por lo tanto, al añadir variables al modelo, el coeficiente de determinación podría aumentar y
podríamos pensar, de manera errónea, que el conjunto de variables elegido es capaz de explicar
una mayor parte de la variación de la variable independiente. A este problema se le conoce
comúnmente como “sobreestimación del modelo”
ANOVA
Es un procedimiento para probar medias poblacionales de más de dos poblaciones. También se utiliza en
regresión para analizar la calidad de la ecuación del modelo (test de significatividad global).
TIPOS DE ESTUDIOS:
1. Experimentales:
- Se realiza un experimento para generar datos
- Se identifica una variable de interés y se controla una o más variables que se consideran
que están relacionadas con la variable de interés.
- Se recaban datos de cómo influyen en ella
2. Observacionales:
- Mediante encuestas por muestreo
DISEÑO DE EXPERIMENTOS:
→ La estrategia de diseño de experimentos supone que los factores (tratamientos) se asignan al azar a las
unidades experimentales de modo de eliminar el sesgo y simular mejor las condiciones presentes en el
modelo. ANOVA a un criterio de clasificación.
→ En ocasiones, se introduce una variable de bloqueo (bloques) para reducir el error experimental. Los
bloques son completamente aleatorios. Este procedimiento se denomina ANOVA a dos criterios de
clasificación.
→ Variable cualitativa es el tratamiento y el dato obtenido es una variable cuantitativa.
Requisitos/supuestos:
1. Independencia: Consideramos que quien seleccionó la muestra lo hizo de forma
independiente.
2. Normalidad: Las poblaciones tienen distribución de probabilidad normal. Demostrable con
test de Kolmogórov-Smirnov o test de Shapiro-Wilk.
Hipótesis a plantear (alfa: 0,05):
3. Homocedasticidad: las poblaciones tienen todas igual varianza. Demostrable con test de
Levene en base a la información muestral.
Hipótesis a plantear (alfa: 0,05):
Cuando no se cumple la normalidad y la homocedasticidad no puede asumirse, una alternativa no
paramétrica es el test de Kruskal-Wallis.
NOTACIÓN:
SCE → Suma de cuadrados explicada o entre los grupos
SCD → Suma de cuadrados residual o dentro de los grupos
SCT → Suma de cuadrados total
La variación de cada elemento a la media total se puede explicar mediante la variación de cada
elemento a la media de su grupo, más la debida media entre los distintos grupos.
- Aclaración:
SCE → Variación entre grupos: involucra a los cuadrados de las desviaciones de las diversas
medias de grupos respecto de la media global.
SCD → Variación dentro de los grupos: implica a los cuadrados de las desviaciones de cada
medida respecto de las medias de los grupos.
SCT → Variación total: es la suma de los cuadrados de las desviaciones de cada medida
respecto de la media global.
Anova 2 criterios de clasificación:
Utilizando bloques (variables para reducir riesgo experimental) con aleatoriedad en su elección.
Los tratamientos son las variables de análisis principales y los bloques las secundarias (si dice “tratados/se
quiere probar/depende de/ se quiere estudiar”, ese es el tratamiento). Se analizará:
⊳ HIPÓTESIS PARA TRATAMIENTO:
H0:m1=m2=m3 (no hay diferencias debidas a los tratamientos)
H1: hay diferencias debidas a los tratamientos
Por ejemplo: si se quiere probar las tres formas de exhibir un nuevo producto en los puntos de
venta, las formas de exhibir serán tratamientos y puntos de venta los bloques.
- SCC: Variación entre bloques (columnas): Sumatoria al cuadrado de las diferencias entre la media
de cada bloque y la media global, multiplicado por la cantidad de tratamientos.
- SCE: Variación residual o aleatoria: Cada observación menos la media del tratamiento menos la
media del bloque mas la media global al cuadrado. Se puede sacar por diferencias si ya hice la
variación total
- SCT: sumatoria al cuadrado de las diferencias entre cada observación individual y la media global.
ESTADISTICA NO PARAMETRICA
La estadística no paramétrica es una rama de la estadística inferencial que estudia las pruebas y modelos
estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución
no puede ser definida a priori, pues son los datos observados los que la determinan
Pruebas
1. Bondad de ajuste
2. Asociación de atributos
Se trabaja con tablas de contingencia. Tenemos dos variables y la frecuencia entre ellas. Trabajamos
la frecuencia de ocurrencia conjunta (probabilidad, teoría de conjuntos). Se prueba si las variables
son independientes o están relacionadas de alguna manera.
H0: Las categorías son independientes.
H1: Las categorías NO son independientes
Dado los eventos A1;A2;(…);Ak, donde la suma de ellos da 1 porque son eventos mutuamente
excluyentes, si ocurre un evento llamado B, cual es la probabilidad de que la ocurrencia de ese
evento se la debamos a una d esas causas por ejemplo A1.
Para eso planteo probabilidad condicional: en el numerador la probabilidad conjunta de A1 y de B
dado Ai, y en el denominador probabilidad de B. La cuenta que hago me da la probabilidad a
posteriori.
Con la información adicional, calculamos nuevamente las probabilidades con el enfoque
bayesiano.
P(B / Ai) Es verosímil de la hipótesis.
P( Ai / B)Es la probabilidad a posteriori.
El enfoque bayesiano:
➨Este enfoque hace una revisión de la información probabilística a priori disponible a fin de
tomar en cuneta información adicional que sea posible recopilar.
➨La información a priori puede ser objetiva o subjetiva.
- Objetiva: Estimando la probabilidad por la frecuencia relativa (Enfoque frecuencista)
- Subjetiva: Por conocimiento y/o experiencia del decisor o expertos. La probabilidad
subjetiva asignada por un individuo a un conjunto de futuros inciertos puede diferir de la
que asignaría otro individuo.
➨La información adicional se puede adquirir ya elaborada o mediante un experto.
PREGUNTAS DE LAS ACTIVIDADES DE CONVALIDACIÓN:
Convalidación I:
1. ¿Que es el error de Tipo II en una prueba de hipótesis?
- Es la probabilidad de no rechazar H0 cuando es falsa.
2. Es un tipo de muestreo aleatorio en el cual cada elemento es elegido mediante un sorteo:
- Sistemático
3. ¿ La mediana de una muestra es un estimador suficiente ?
- NO
4. De un claro ejemplo en el que se pueda aplicar un muestreo por redes o bola de nieve. Sea lo más
claro posible en la descripción.
- Consiste en localizar a los individuos con características específicas, se hace en poblaciones marginales o
de difícil acceso. Consiste en que un individuo con determinada característica va a contactar con otro de las
mismas características y así sucesivamente. Ej: Sectas, Fumadores, Enfermedades específicas.
5. ¿Un estimador es suficiente si al aumentar el tamaño de la muestra disminuye el sesgo y la varianza?
- NO
6. Si se divide la población en dos grupos y se toma una muestra aleatoria de cada grupo. ¿Según la
técnica presentada, que tipo de muestreo es?
- Por conglomerados
7. ¿La única manera de disminuir simultáneamente ∝ y β es aumentando el tamaño de la muestra?
- NO
8. ¿El error muestral disminuye al aumentar el tamaño de la muestra?
- SI
9. ¿Que significa un nivel de confianza de un 95% para un intervalo de confianza?
- Que si el investigador repitiese su estudio en las mismas condiciones pero con distintas muestras
aleatorias, 95 de cada 100 veces obtendrá intervalos que contendrán el verdadero parámetro poblacional y
5 veces obtendrá intervalos que no lo contienen.
Por lo tanto resulta errado interpretar que hay una probabilidad de 95% que el verdadero valor se
encuentre dentro del intervalo.
Convalidación III
1. Según el coeficiente de correlación lineal simple ¿Cuál sería la interpretación de sus valores?
-
2. En el test global. ¿Que significa que sea significativo y no significativo?
- Si no rechazo H0 quiere decir que al menos una variable no es significativa para el modelo.
- Si rechazo H0 quiere decir que es un buen modelo para explicar a Y.
3. ¿Que significa el R^2?
- Es el porcentaje de las observaciones que están explicadas por el modelo.
Convalidación IV
1. En el enfoque Bayesiano, la probabilidad de observar información adicional cuando el evento que se
presenta sea uno determinado, le de denomina:
- A priori
2. ¿Cuales son los supuestos que deben cumplirse para realizar el análisis de la varianza?
-Independencia, Normalidad, Homocedasticidad
3. Es un ambiente en el que el decisor no sabe con certeza que estados de la naturaleza se presentarán,
pero si conoce cuales pueden presentarse y la probabilidad que tiene cada uno de ellos. ¿Como se
denomina ese ambiente en un problema de decisión?
- Riesgo
4. En el análisis de la varianza (Anova) lo que se considera como grupo o tratamiento corresponde a una
variable…
- Cualitativa e independiente.
5. Para probar si una variable cualitativa sigue una distribución uniforme se utiliza la prueba de:
- Chi - Cuadrado
6. Las tablas de contingencia se utilizan para probar:
- Si las variables son independientes
Preguntas de parciales:
1. ¿Que es un error de tipo II?
- Es la probabilidad de no rechazar H0 cuando H0 es falsa. Probabilidad β
2. ¿Que significa que un estimador es insesgado?
- Cuando la media de su distribución en el muestreo coincide con el parámetro a estimar.
3. Complete con el tipo de muestreo según la técnica presentada:
a) Se divide a la población en grupos y se toma una muestra aleatoria de cada grupo: Conglomerados
b) Dado el listado de la población se eligen los elementos que formarán la muestra, mediante un sorteo:
Sistemático
4. Explique con detalle el proceso utilizado en una prueba de hipótesis para comparar poblaciones
relacionadas.
- Caso 4, muestras pareadas o dependientes. Generamos una nueva variable d (Diferencia) en donde
d = x - y . Calculamos media y desvío. Con estadistico T - Student.
5. Demuestre que E(px) = πx. Explique como es el estimador respecto del parámetro.
- Estimador insesgado.
6. ¿Cual es la diferencia entre muestreo aleatorio simple y muestreo aleatorio sistemático?
- Muestreo aleatorio simple: Cuando se conocen todos los elementos de n (población), cada elemento
tiene la misma posibilidad de ser elegido. Se eligen al azar. El proceso consiste en seleccionar a los que
coinciden con un número al azar y el orden de lista, usando programas estadísticos. Ej: Elección de un
usuario X de servicio
-Muestreo aleatorio sistemático: Se conocen todos los elementos de la n (población). Los elementos se
eligen de la población en un intervalo uniforme, medido respecto del tiempo, orden o espacio. El proceso
consiste en tomar “k” elementos de una lista, se elige el primer elemento de la muestra al azar.
7.Mencione los supuestos para abordar un modelo de regresión lineal simple
1) La Variable aleatoria Ei es independiente de los valores Xi
2) Tiene distribución normal
3) Esperanza = 0
4) Cov = 0
5) Varianza = σ2 (es finita y constante para todo i).