Estadistica Investigacion en Grupo

1
1 Caratula
2
ÍNDICE
3
INTRODUCCIÓN
4
1- MUESTREO ESTADÍSTICO:
Es el procedimiento mediante el cual se toman a ciertos individuos que pertenecen
a una población que está siendo sujeto de un análisis.
El muestreo es necesario por el hecho de que las poblaciones pueden ser

demasiado grandes y no es factible (económica y materialmente hablando) tomar
datos de todos los individuos.
El objetivo:
Es que la muestra sea representativa. Es decir, que sus indicadores como la
media de edad, el ingreso promedio, el porcentaje de hombres y de mujeres, entre
otros, sea el mismo, o muy similar al de la población.
El objetivo del muestreo es obtener inferencia sobre una población de interés, de

la forma más eficiente y confiable.
Ventajas:
- Sencillo y de fácil comprensión.

- Cálculo rápido de medias y varianzas.
- Se basa en la teoría estadística, y por tanto existen paquetes informáticos
para analizar los datos.
Desventajas:
- Requiere que se posea de antemano un listado completo de toda la población
¿Cuáles Son Los Pasos Para Llevar A Cabo Un Muestreo Probabilístico?
1.- Elige cuidadosamente tu población de interés: piensa detenidamente y elige

entre la población de manera correcta. Las personas que crees que tienen
opiniones que deban recopilarse son las que tienes que incluir en tu muestra.
2.- Determina un marco de muestra adecuado: tu marco debe incluir una muestra
de tu población de interés y nadie del exterior. Esto es importante si quieres
recopilar datos precisos y que te sirvan.
3.-Selecciona tu muestra y comienza tu encuesta: a veces puede ser difícil

encontrar la muestra correcta y determinar el marco de muestra adecuado. Incluso
5
cuando todos los factores están a nuestro favor, muchas veces pueden haber
problemas imprevistos como el factor de costo, la calidad de los encuestados y la
rapidez de estos en responder.
Obtener una muestra para responder a una verdadera encuesta de probabilidad

puede ser difícil, pero no imposible.
En la mayoría de los casos, utilizar la técnica de muestreo probabilístico te

ahorrará tiempo, dinero y mucha frustración. Probablemente no puedas enviar
encuestas a todas las personas, pero siempre puedes darles a todos la
oportunidad de participar, de esto es de lo que se trata la técnica de muestreo de
probabilidad.
Ejemplos de métodos de muestreo
Conozcamos diversos tipos de muestreo probabilístico y no probabilístico que

pueden aplicarse en cualquier estudio de investigación de mercado.
El muestreo de probabilidad es una técnica de muestreo en la que los

investigadores eligen muestras de una población más grande utilizando un método
basado en la teoría de la probabilidad. Este es uno de los métodos de muestreo
que considera a todos los miembros de la población y forma muestras basadas en
un proceso fijo.
POR EJEMPLO, en una población de 1000 miembros, cada miembro tendrá una
probabilidad de 1/1000 de ser seleccionado para formar parte de una muestra. El
muestreo probabilístico elimina el sesgo en la población y da a todos los miembros
una oportunidad justa de ser incluidos en la muestra.
6
CONCEPTOS:
Muestra:
Es una porción de la totalidad de un fenómeno, producto o actividad que se
considera representativa de la total también llamada una muestra representativa.
Muestra viene de mostrar siendo que da a conocer a los interesados o públicos

objetivos resultados, productos o servicios que ejemplifican o sirve como
demostración de un tipo de evento, calidad o la estandarización.
En estadísticas, la muestra es una porción extraída mediante métodos específicos

que representan los resultados de una totalidad llamada población usando la
probabilidad como, por ejemplo, “la muestra estadística de 100 personas que se
someten a una encuesta para conocer la satisfacción de un producto”.
Población:
Una población estadística es el total de individuos o conjunto de ellos que
presentan o podrían presentar el rasgo característico que se desea estudiar.
Quizá, la definición teórica de población estadística sea un poco abstracta. Por

eso, sin renunciar a la rigurosidad y precisión que requieren las variables
cuantitativas, vamos a intentar abordar el concepto de población estadística de la
forma más sencilla posible.
Empezaremos por la palabra población. ¿En qué piensas cuando lees o escuchas
la palabra población? Muy probablemente en un número de personas. Por
ejemplo, la población de Argentina, la población de Chile, la población de Nueva
York o la población mundial. Y dirás, ¿qué tiene que ver la población con la
estadística? Pues tiene que ver mucho. Todo se remonta a los orígenes de la
palabra estadística.
Con esto en mente, seguiremos la siguiente secuencia para entender el concepto:

origen de la palabra, principales tipos de población y un ejemplo de población
estadística.
Parámetro:
Por tanto, no es más que un valor que representa algo que queremos medir. Sin
7
embargo, esta definición tiene algunas variantes dependiendo de la disciplina de
que se trate. Suele estar relacionado con términos como variable, axioma o
función.
Vamos a verlo en las diferentes ciencias y con más detalle en los próximos
apartados.
El parámetro en estadística
Un parámetro tiene una enorme utilidad en estadística. En primer lugar, sirve para
conocer atributos de una distribución de datos. Por ejemplo, la media aritmética o
la desviación típica de estos. En probabilidad permite conocer las llamadas
funciones de distribución. En una recta de regresión nos indica valores numéricos
asociados a dicha recta y que la hacen única.
Estadígrafo:
Estadístico o Estadígrafo: Son las medidas descriptivas inherentes a una muestra,
las cuales pueden usarse como estimación del parámetro. Es el término utilizado
para designar a la persona dedicada a las tareas propias de la estadística, aunque
en ocasiones también es frecuente que se utilice para designar a la variable que
define una distribución estadística, de esta forma es común escuchar el término
estadígrafo de prueba.
TIPOS DE MUESTREO
Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la

extracción de número mediante ordenadores, calculadoras o tablas construidas al efecto.
Muestreo sistemático
Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el

tiempo.
Primero hay que identificar las unidades y las relaciones con el calendario (cuando
proceda). Luego hay que calcular una constante, denominada coeficiente de elevación.
J= N/ n
donde N es el tamaño de la población y n el tamaño de la muestra.
Para determinar en qué fecha se producirá la primera extracción hay que elegir al azar un
número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares.
Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno.
8
Esto quiere decir que si tenemos un determinado número de personas que es la población
(N) y queremos escoger de esa población un número más pequeño el cual es la muestra
(n), dividimos el número de la población por el número de la muestra que queremos tomar
y el resultado de esta operación será el intervalo, entonces escogemos un número al azar
desde uno hasta el número del intervalo, y a partir de este número escogemos los demás
siguiendo el orden.
Muestreo estratificado
Consiste en la división previa de la población de estudio en grupos o clases que se

suponen homogéneos con respecto a alguna característica de las que se van a estudiar.
A cada uno de estos estratos se le asignaría una cuota que determinaría el número de
miembros del mismo que compondrán la muestra. Dentro de cada estrato se suele usar la
técnica de muestreo sistemático, una de las técnicas de selección más usadas en la
práctica.
Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los
estratos, existen dos técnicas de muestreo estratificado:
 Asignación proporcional: el tamaño de la muestra dentro de cada estrato es

proporcional al tamaño del estrato dentro de la población.
 Asignación óptima: la muestra recogerá más individuos de aquellos estratos que

tengan más variabilidad. Para ello es necesario un conocimiento previo de la
población.
Muestreo por etapas múltiples
Esta técnica es la única opción cuando no se dispone de lista completa de la población de

referencia o bien cuando por medio de la técnica de muestreo simple o estratificado se
obtiene una muestra con unidades distribuidas de tal forma que resultan de difícil acceso.
En el muestreo a estudios múltiples, se subdivide la población en varios niveles
ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El
muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel.
Muestreo por conglomerados
Se utiliza cuando la población se encuentra dividida, de manera natural, en grupos que se

supone que contienen toda la variabilidad de la población, es decir, la representan
fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos
grupos o conglomerados para la realización del estudio.
Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo,
las personas a encuestar, y podría aplicársele el instrumento de medición a todas las
unidades, es decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos,
9
seleccionados al azar. Este método tiene la ventaja de simplificar la recolección de
información muestral.
Homogeneidad de las poblaciones o sus subgrupos
Homogéneo significa, en el contexto de la estratificación, que no hay mucha variabilidad.

Los estratos funcionan mejor cuanto más homogéneos son cada uno de ellos respecto a
la característica a medir. Por ejemplo, si se estudia la estatura de una población, es bueno
distinguir entre los estratos mujeres y hombres porque se espera que, dentro de ellos,
haya menos variabilidad, es decir, sean menos heterogéneos. Dicho de otro modo, no hay
tantas diferencias entre unas estaturas y otras dentro del estrato que en la población total.
Muestreo no probabilístico
Es aquel para el que no se puede calcular la probabilidad de extracción de una

determinada muestra ya que no todos los sujetos tienen la misma probabilidad de ser
elegidos. Por tal motivo, se busca seleccionar a individuos que tienen un conocimiento
profundo del tema bajo estudio y se considera que la información aportada por esas
personas es vital para la toma de decisiones.
Muestreo por cuotas
Es la técnica más difundida sobre todo en estudios de mercado y sondeos de opinión. En

primer lugar, es necesario dividir la población de referencia en varios estratos definidos
por algunas variables de distribución conocida (como el género o la edad). Posteriormente
se calcula el peso proporcional de cada estrato, es decir, la parte proporcional de
población que representan. Finalmente se multiplica cada peso por el tamaño de n de la
muestra para determinar la cuota precisa en cada estrato. Se diferencia del muestreo
estratificado en que una vez determinada la cuota, el investigador es libre de elegir a los
sujetos de la muestra dentro de cada estrato.
Muestreo de bola de nieve
Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas, pero en

contacto entre sí. Consiste en identificar sujetos que se incluirán en la muestra a partir de
los propios entrevistados. Partiendo de una pequeña cantidad de individuos que cumplen
los requisitos necesarios, servirán como localizadores de otros con características
análogas.
Muestreo subjetivo por decisión razonada
En este caso las unidades de la muestra se eligen en función de algunas de sus

características de manera racional y no casual. Una variante de esta técnica es
el muestreo compensado o muestreo equilibrado, en el que se seleccionan las unidades
de tal forma que la media de la muestra para determinadas variables se acerque a la
10
media de la población, la cual funciona sobre la base de referencias o por recomendación,
después se reconoce por medio de la estadística.
Muestreo aleatorio simple
Todos aquellos métodos para los que se puede calcular la probabilidad de extracción de
cualquiera de las muestras posibles. Este conjunto de técnicas de muestreo es el más
aconsejable, aunque en ocasiones no es posible optar por él.
Errores en el Muestreo Cuando se utilizan valores muéstrales, o estadísticos para estimar

valores poblacionales, o parámetros, pueden ocurrir dos tipos generales de errores: el
error muestral y el error no muestral.
El error muestral se refiere a la variación natural existente entre muestras tomadas de la

misma población.
Cuando una muestra no es una copia exacta de la población; aún si se ha tenido gran
cuidado para asegurar que dos muestras del mismo tamaño sean representativas de una
cierta población, no esperaríamos que las dos sean idénticas en todos sus detalles. El
error muestral es un concepto importante que ayudará a entender mejor la naturaleza de
la estadística inferencial.
Los errores que surgen al tomar las muestras no pueden clasificarse como errores
muéstrales y se denominan errores no muéstrales.
El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se refiere a

una tendencia sistemática inherente a un método de muestreo que da estimaciones de un
parámetro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo)
que el parámetro real.
Un modelo de regresión es un modelo que permite describir cómo influye una variable X
sobre otra variable Y . I X: Variable independiente o explicativa o exógena I Y: Variable
dependiente o respuesta o endógena El objetivo es obtener estimaciones razonables de Y
para distintos valores de X a partir de una muestra de n pares de valores (x1, y1), . . ., (xn,
yn).
11
Ejemplos I Estudiar cómo influye la estatura del padre sobre la estatura del hijo. I Estimar
el precio de una vivienda en función de su superficie. I Predecir la tasa de paro para cada
edad. I Aproximar la calificación obtenida en una materia según el número de horas de
estudio semanal. I Prever el tiempo de computación de un programa en función de la
velocidad del procesador Correlación lineal
Para estudiar la relación lineal existente entre dos variables continuas es necesario
disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros
es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.
Covarianza muestral=Cov(X,Y)=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)N−1Covarianza
muestral=Cov(X,Y)=∑i=1n(xi−x¯)(yi−y¯)N−1
siendo x¯¯¯x¯ e y¯¯¯y¯ la media de cada variable y xixi e yiyi el valor de las variables

para la observación ii.
La covarianza depende de las escalas en que se miden las variables estudiadas, por lo
tanto, no es comparable entre distintos pares de variables. Para poder hacer
comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan
el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1
una correlación negativa perfecta.
 Se emplean como medida de fuerza de asociación (tamaño del efecto):
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.
Las principales diferencias entre estos tres coeficientes de asociación son:
 La correlación de Pearson funciona bien con variables cuantitativas que tienen una

distribución normal. En el libro Handbook of Biological Statatistics se menciona que
sigue siendo bastante robusto a pesar de la falta de normalidad. Es más sensible a
los valores extremos que las otras dos alternativas.
 La correlación de Spearman se emplea cuando los datos son ordinales, de

intervalo, o bien cuando no se satisface la condición de normalidad para variables
continuas y los datos se pueden transformar a rangos. Es un método no
paramétrico.
12
 La correlación de Kendall es otra alternativa no paramétrica para el estudio de la
correlación que trabaja con rangos. Se emplea cuando se dispone de pocos datos
y muchos de ellos ocupan la misma posición en el rango, es decir, cuando hay
muchas ligaduras.
¿Qué es el coeficiente de Correlación? El coeficiente de correlación es la medida

específica que cuantifica la intensidad de la relación lineal entre dos variables en un
análisis de correlación. En los informes de correlación, este coeficiente se simboliza con
la r.
¿Cómo se utiliza el coeficiente de correlación? Para dos variables, la fórmula compara la

distancia de cada dato puntual respecto a la media de la variable y utiliza esta
comparación para decirnos hasta qué punto la relación entre las variables se ajusta a una
línea imaginaria trazada entre los datos. A esto nos referimos cuando decimos que la
correlación examina las relaciones lineales.
¿Qué limitaciones hay que tener en cuenta? La correlación sólo se refiere a las dos
variables dadas y no aporta información sobre las relaciones más allá de los datos
bivariados. Esta prueba no puede detectar valores atípicos en los datos (y por tanto estos
sesgan los resultados) y tampoco puede detectar correctamente las relaciones
curvilíneas.
¿Qué significan los valores del coeficiente de correlación? El coeficiente de

correlación r es un valor sin unidades entre -1 y 1. La significancia estadística se indica
con un valor p. Por lo tanto, usualmente las correlaciones se escriben con dos números
clave: r = y p = .
 Cuanto más se aproxima r a cero, más débil es la relación lineal.
 Los valores de r positivos indican una correlación positiva, en la que los valores de
ambas variables tienden a incrementarse juntos.
 Los valores de r negativos indican una correlación negativa, en la que los valores
de una variable tienden a incrementarse mientras que los valores de la otra
variable descienden.
 Los valores 1 y -1 representan una correlación "perfecta" positiva y negativa,

respectivamente. Dos variables perfectamente correlacionadas cambian
conjuntamente a una tasa fija. Decimos que tienen una relación linear; cuando
representados en un gráfico de dispersión, todos los puntos correspondientes a los
datos pueden conectarse con una misma línea recta.
 El valor p nos ayuda a determinar si podemos o no concluir de manera significativa

que el coeficiente de correlación de la población es diferente a cero, basándonos
en lo que observamos en la muestra.
13
EJEMPLO
Supongamos que queremos saber si podemos esperar más ventas de helado en nuestra
ciudad en los días de calor. Las heladerías empiezan a abrir en primavera; tal vez porque
la gente compra más helado en los días que hace calor. Alternativamente, a lo mejor la
gente compra helado de manera regular porque les gusta mucho.
Para empezar a responder a esta pregunta, recopilaremos los datos de los promedios
diarios de venta de helado y la temperatura máxima diaria. Por tanto, las ventas de helado
y la temperatura son las dos variables que usaremos para calcular el coeficiente de
correlación. A veces a este tipo de datos se los llama datos bivariados, porque cada
observación (o instante de tiempo en el que hemos medido tanto las ventas como la
temperatura) tiene dos datos que podemos usar para describirla. En otras palabras, nos
estamos preguntando si las ventas de helado y la temperatura varían conjuntamente.
14
REGRESIÓN Y CORRELACIÓN LINEA
SIMPLE:
Universidad Regional De Guatemala
Carrera: Auditoria
Curso: Estadística
Catedrática: Licenciada Heidy Bran
Segundo Semestre 2021
“Trabajo de Investigación”
Nombre: Lynda Katherin Hernández Morales
Carnet: 2132072
15
Guatemala 2 de septiembre 2021
Universidad Regional De Guatemala
Carrera: Auditoria
Curso: Estadística
Catedrática: Licenciada Heidy Bran
Segundo Semestre 2021
“Trabajo de Investigación”
Nombre: Lynda Katherin Hernández Morales
Carnet: 2132072
16
Guatemala 2 de septiembre 2021

17
2 Índice
1 Caratula
2 Índice
3 Introducción
4 Muestreo Estadístico
5 Concepto
6 Objetivos del muestreo
7 Ventajas del Muestreo
8 Conceptos: Muestra, Población, Parámetro, Estadígrafo
9 Tipos de muestreo
10 Error de muestreo
11 Regresión y Correlación lineal simple

12 Regresión
13 Correlación Lineal Simple
14 Coeficiente de Correlación y sus características
15 Coeficiente de Determinación
16 Error Estándar de Estimación
17 Propiedades de los mínimos cuadrados
2.1
18 Series cronológicas o históricas

19 Concepto
20 Componentes (indicar a que se refieren y dar un ejemplo de cada una)
21 Tendencia secular
22 Variación estacional
23 Variación cíclica
24 Sucesos aleatorios o irregulares
25 Serie Par - Serie Impar
26 Método Largo - Método corto o abreviado
18
19
27 Números índices y desvalorización monetaria
28 Concepto
29 Clasificación de los números índices
30 Índices simples de base fija
31 Índices simples en eslabones
32 Índices simples en cadena
33 Cambio de base de números índices
34 Índices agregativos simples
35 Índices compuestos o ponderados
36 Desvalorización monetaria
37 Conclusión
38 Recomendación
39 Bibliografía o Web Grafica
10
11
12
20
13
14
15
16Introducción
La correlación lineal y la regresión lineal simple son métodos estadísticos que

estudian la relación lineal existente entre dos variables. Antes de profundizar en
cada uno de ellos, conviene destacar algunas diferencias:
 La correlación cuantifica como de relacionadas están dos variables,
mientras que la regresión lineal consiste en generar una ecuación
(modelo) que, basándose en la relación existente entre ambas variables,
permita predecir el valor de una a partir de la otra.
 El cálculo de la correlación entre dos variables es independiente del orden
o asignación de cada variable a XX e YY, mide únicamente la relación
entre ambas sin considerar dependencias. En el caso de la regresión
lineal, el modelo varía según qué variable se considere dependiente de la
otra (lo cual no implica causa-efecto).
 A nivel experimental, la correlación se suele emplear cuando ninguna de
las variables se ha controlado, simplemente se han medido ambas y se
desea saber si están relacionadas. En el caso de estudios de regresión
lineal, es más común que una de las variables se controle (tiempo,
concentración de reactivo, temperatura…) y se mida la otra.
 Por norma general, los estudios de correlación lineal preceden a la
generación de modelos de regresión lineal. Primero se analiza si ambas
variables están correlacionadas y, en caso de estarlo, se procede a
generar el modelo de regresión.
17Regresión y correlación lineal simple

21
18 Regresión
La regresión lineal simple consiste en generar un modelo de regresión (ecuación
de una recta) que permita explicar la relación lineal que existe entre dos
variables. A la variable dependiente o respuesta se le identifica como YY y a la
variable predictora o independiente como XX.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Y=β0+β1X1+ϵY=β0+β1X1+ϵ
Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este

último representa la diferencia entre el valor ajustado por la recta y el valor real.
Recoge el efecto de todas aquellas variables que influyen en YY pero que no se
incluyen en el modelo como predictores. Al error aleatorio también se le conoce
como residuo.
En la gran mayoría de casos, los valores β0β0 y β1β1 poblacionales son
desconocidos, por lo que, a partir de una muestra, se obtienen sus
estimaciones β^0 y β^1. Estas estimaciones se conocen como coeficientes de
regresión o least square coefficient estimates, ya que toman aquellos valores que
minimizan la suma de cuadrados residuales, dando lugar a la recta que pasa
más cerca de todos los puntos. (Existen alternativas al método de mínimos
cuadrados para obtener las estimaciones de los coeficientes).
y^=β^0+β^1xy^=β^0+β^1x
β^1=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)∑ni=1(xi−x¯¯¯)2=SySxRβ^1=∑i=1n(xi−x¯)
(yi−y¯)∑i=1n(xi−x¯)2=SySxR
β^0=y¯¯¯−β^1x¯¯¯β^0=y¯−β^1x¯
Donde SySy y SxSx son las desviaciones típicas de cada variable y RR el

coeficiente de correlación. β^0β^0 es el valor esperado la
variable YY cuando XX = 0, es decir, la intersección de la recta con el eje y. Es
un dato necesario para generar la recta, pero en ocasiones, no tiene
interpretación práctica (situaciones en las que XX no puede adquirir el valor 0).
Una recta de regresión puede emplearse para diferentes propósitos y
dependiendo de ellos es necesario satisfacer distintas condiciones. En caso de
querer medir la relación lineal entre dos variables, la recta de regresión lo va a
indicar de forma directa (ya que calcula la correlación). Sin embargo, en caso de
querer predecir el valor de una variable en función de la otra, no solo se necesita
calcular la recta, sino que además hay que asegurar que el modelo sea bueno.
22
19 Correlación lineal
Para estudiar la relación lineal existente entre dos variables continuas es

necesario disponer de parámetros que permitan cuantificar dicha relación. Uno
de estos parámetros es la covarianza, que indica el grado de variación conjunta
de dos variables aleatorias.
siendo x¯¯¯x¯ e y¯¯¯y¯ la media de cada variable y xixi e yiyi el valor de las

variables para la observación ii.
La covarianza depende de las escalas en que se miden las variables estudiadas,

por lo tanto, no es comparable entre distintos pares de variables. Para poder
hacer comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que
destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva
perfecta y -1 una correlación negativa perfecta.
 La correlación de Pearson funciona bien con variables cuantitativas que
tienen una distribución normal. En el libro Handbook of Biological
Statatistics se menciona que sigue siendo bastante robusto a pesar de la
falta de normalidad. Es más sensible a los valores extremos que las otras
dos alternativas.
intervalo, o bien cuando no se satisface la condición de normalidad para
variables continuas y los datos se pueden transformar a rangos. Es un
método no paramétrico.
 La correlación de Kendall es otra alternativa no paramétrica para el
estudio de la correlación que trabaja con rangos. Se emplea cuando se
dispone de pocos datos y muchos de ellos ocupan la misma posición en el
rango, es decir, cuando hay muchas ligaduras.
23
coeficiente de determinación y sus características
es la proporción de la varianza total de la variable explicada por la regresión. Es

también denominado R cuadrado y sirve para reflejar la bondad del ajuste de un
modelo a la variable que se pretende explicar.
El coeficiente de determinación puede adquirir resultados que oscilan entre 0 y 1.
Así, cuando adquiere resultados más cercanos a 1, mayor resultará el ajuste del
modelo a la variable que se pretende aplicar para el caso en concreto. Por el
contrario, cuando adquiere resultados que se acercan al valor 0, menor será el
ajuste del modelo a la variable que se pretende aplicar y, justo por eso, resultará
19.1 COEFICIENTE DE DETERMINACIÓN
La fórmula del coeficiente de determinación es la siguiente:

Se trata de una fórmula de gran complejidad, por lo que lo mejor es ir por partes.
En primer lugar, analizaremos el numerador, ya que la fórmula del coeficiente de
determinación es una fracción. El numerador de esta fórmula es la expresión de la
varianza, si bien existen dos diferencias de gran importancia. En primer lugar, la Y
lleva un circunflejo, lo cual significa que la Y es la estimación de un modelo sobre
lo que, de acuerdo con las variables aplicables al respecto, vale Y. Así, no se trata
del valor real de Y, sino de una estimación del valor de Y. En segundo lugar, falta
la división entre N (el número de observaciones en la fórmula a través de la cual
se calcula la varianza).
Ahora analizaremos el denominador de la fracción que conforma la fórmula del
coeficiente de determinación. En este caso, la única diferencia que existe respecto
de la fórmula de la varianza es que no se aplica su denominador. Así, no hay una
división entre N (número de observaciones).
20 Error estándar de estimación
El error estándar de estimación mide la desviación en una muestra valor

poblacional. Es decir, el error estándar de estimación mide las posibles
variaciones de la media muestral con respecto al verdadero valor de la media
poblacional.
Por ejemplo, si se desea conocer la edad promedio de la población de un país

(media poblacional) se toma un pequeño grupo de habitantes, a los que
24
llamaremos “muestra”. De ella se extrae la edad promedio (media muestral) y se
asume que la población tiene esa edad promedio con un error estándar de
estimación que varía más o menos.
Habría que reseñar que es importante no confundir la desviación estándar con el

error estándar y con el error estándar de estimación:
1- La desviación estándar es una medida de la dispersión de los datos; es decir,

es una medida de la variabilidad de la población.
2- El error estándar es una medida de la variabilidad de la muestra, calculada en

base a la desviación estándar de la población.
3- El error estándar de estimación es una medida del error que se comete al tomar
la media muestral como estimación de la media poblacional.
La estructura general de una fórmula para el error estándar de estimación es

la siguiente:
Error estándar de estimación = ± Coeficiente de confianza * Error estándar
Coeficiente de confianza = valor límite de un estadístico muestral o distribución

de muestreo (normal o campana de Gauss, t de Student, entre otras) para un
determinado intervalo de probabilidades.
25
Error estándar = desviación estándar de la población dividida por la raíz
cuadrada del tamaño de la muestra.
El coeficiente de confianza indica la cantidad de errores estándar que está

dispuesto a sumar y restar a la medida para tener un cierto nivel de confianza en
los resultados.
20.1 Propiedades de los mínimos cuadrados

Es un procedimiento de análisis numérico en la que, dados un conjunto de datos
(pares ordenados y familia de funciones), se intenta determinar la función continua
que mejor se aproxime a los datos (línea de regresión o la línea de mejor ajuste),
proporcionando una demostración visual de la relación entre los puntos de los
mismos. En su forma más simple, busca minimizar la suma de cuadrados de las
diferencias ordenadas (llamadas residuos) entre los puntos generados por la
función y los correspondientes datos.
Este método se utiliza comúnmente para analizar una serie de datos que se
obtengan de algún estudio, con el fin de expresar su comportamiento de manera
lineal y así minimizar los errores de la data tomada.
La creación del método de mínimos cuadrados generalmente se le acredita al

matemático alemán Carl Friedrich Gauss, quien lo planteó en 1794 pero no lo
publicó sino hasta 1809. El matemático francés Andrien-Marie Legendre fue el
primero en publicarlo en 1805, este lo desarrolló de forma independiente.
40
Su expresión general se basa en la ecuación de una recta y = mx + b. Donde m
es la pendiente y b el punto de corte, y vienen expresadas de la siguiente manera:
Σ es el símbolo sumatoria de todos los términos, mientas (x, y) son los datos en
estudio y n la cantidad de datos que existen.
26
El método de mínimos cuadrados calcula a partir de los N pares de datos
experimentales (x, y), los valores m y b que mejor ajustan los datos a una recta.
Se entiende por el mejor ajuste aquella recta que hace mínimas las distancias d de
los puntos medidos a la recta.
Teniendo una serie de datos (x, y), mostrados en un gráfico o gráfica, si al

conectar punto a punto no se describe una recta, debemos aplicar el método de
mínimos cuadrados, basándonos en su expresión general:
Cuando se haga uso del método de mínimos cuadrados se debe buscar una línea
de mejor ajuste que explique la posible relación entre una variable independiente y
una variable dependiente. En el análisis de regresión, las variables dependientes
se designan en el eje y vertical y las variables independientes se designan en el
eje x horizontal. Estas designaciones formarán la ecuación para la línea de mejor
ajuste, que se determina a partir del método de mínimos cuadrados.
27
41 Números índices y desvalorización monetaria
42 Concepto
43 Clasificación de los números índices
44 Índices simples de base fija
45 Índices simples en eslabones
46 Índices simples en cadena
47 Cambio de base de números índices
48 Índices agregativos simples
49 Índices compuestos o ponderados
50 Desvalorización monetaria
51 Conclusión
52 Recomendación
53 Bibliografía o Web Grafica
21
22
23
24
25
26
27
28
29
30
28
31
32
33
34Introducción
La correlación lineal y la regresión lineal simple son métodos estadísticos que

estudian la relación lineal existente entre dos variables. Antes de profundizar en
cada uno de ellos, conviene destacar algunas diferencias:
 La correlación cuantifica como de relacionadas están dos variables,
mientras que la regresión lineal consiste en generar una ecuación
(modelo) que, basándose en la relación existente entre ambas variables,
permita predecir el valor de una a partir de la otra.
 El cálculo de la correlación entre dos variables es independiente del orden
o asignación de cada variable a XX e YY, mide únicamente la relación
entre ambas sin considerar dependencias. En el caso de la regresión
lineal, el modelo varía según qué variable se considere dependiente de la
otra (lo cual no implica causa-efecto).
 A nivel experimental, la correlación se suele emplear cuando ninguna de
las variables se ha controlado, simplemente se han medido ambas y se
desea saber si están relacionadas. En el caso de estudios de regresión
lineal, es más común que una de las variables se controle (tiempo,
concentración de reactivo, temperatura…) y se mida la otra.
 Por norma general, los estudios de correlación lineal preceden a la
generación de modelos de regresión lineal. Primero se analiza si ambas
variables están correlacionadas y, en caso de estarlo, se procede a
generar el modelo de regresión.
35Regresión y correlación lineal simple

29
36 Regresión
La regresión lineal simple consiste en generar un modelo de regresión (ecuación
de una recta) que permita explicar la relación lineal que existe entre dos
variables. A la variable dependiente o respuesta se le identifica como YY y a la
variable predictora o independiente como XX.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Y=β0+β1X1+ϵY=β0+β1X1+ϵ
Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este

último representa la diferencia entre el valor ajustado por la recta y el valor real.
Recoge el efecto de todas aquellas variables que influyen en YY pero que no se
incluyen en el modelo como predictores. Al error aleatorio también se le conoce
como residuo.
En la gran mayoría de casos, los valores β0β0 y β1β1 poblacionales son
desconocidos, por lo que, a partir de una muestra, se obtienen sus
estimaciones β^0 y β^1. Estas estimaciones se conocen como coeficientes de
regresión o least square coefficient estimates, ya que toman aquellos valores que
minimizan la suma de cuadrados residuales, dando lugar a la recta que pasa
más cerca de todos los puntos. (Existen alternativas al método de mínimos
cuadrados para obtener las estimaciones de los coeficientes).
y^=β^0+β^1xy^=β^0+β^1x
β^1=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)∑ni=1(xi−x¯¯¯)2=SySxRβ^1=∑i=1n(xi−x¯)
(yi−y¯)∑i=1n(xi−x¯)2=SySxR
β^0=y¯¯¯−β^1x¯¯¯β^0=y¯−β^1x¯
Donde SySy y SxSx son las desviaciones típicas de cada variable y RR el

coeficiente de correlación. β^0β^0 es el valor esperado la
variable YY cuando XX = 0, es decir, la intersección de la recta con el eje y. Es
un dato necesario para generar la recta, pero en ocasiones, no tiene
interpretación práctica (situaciones en las que XX no puede adquirir el valor 0).
Una recta de regresión puede emplearse para diferentes propósitos y
dependiendo de ellos es necesario satisfacer distintas condiciones. En caso de
querer medir la relación lineal entre dos variables, la recta de regresión lo va a
indicar de forma directa (ya que calcula la correlación). Sin embargo, en caso de
querer predecir el valor de una variable en función de la otra, no solo se necesita
calcular la recta, sino que además hay que asegurar que el modelo sea bueno.
30
37 Correlación lineal
Para estudiar la relación lineal existente entre dos variables continuas es

necesario disponer de parámetros que permitan cuantificar dicha relación. Uno
de estos parámetros es la covarianza, que indica el grado de variación conjunta
de dos variables aleatorias.
siendo x¯¯¯x¯ e y¯¯¯y¯ la media de cada variable y xixi e yiyi el valor de las

variables para la observación ii.
La covarianza depende de las escalas en que se miden las variables estudiadas,

por lo tanto, no es comparable entre distintos pares de variables. Para poder
hacer comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que
destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva
perfecta y -1 una correlación negativa perfecta.
 La correlación de Pearson funciona bien con variables cuantitativas que
tienen una distribución normal. En el libro Handbook of Biological
Statatistics se menciona que sigue siendo bastante robusto a pesar de la
falta de normalidad. Es más sensible a los valores extremos que las otras
dos alternativas.
intervalo, o bien cuando no se satisface la condición de normalidad para
variables continuas y los datos se pueden transformar a rangos. Es un
método no paramétrico.
 La correlación de Kendall es otra alternativa no paramétrica para el
estudio de la correlación que trabaja con rangos. Se emplea cuando se
dispone de pocos datos y muchos de ellos ocupan la misma posición en el
rango, es decir, cuando hay muchas ligaduras.
31
coeficiente de determinación y sus características
es la proporción de la varianza total de la variable explicada por la regresión. Es

también denominado R cuadrado y sirve para reflejar la bondad del ajuste de un
modelo a la variable que se pretende explicar.
El coeficiente de determinación puede adquirir resultados que oscilan entre 0 y 1.
Así, cuando adquiere resultados más cercanos a 1, mayor resultará el ajuste del
modelo a la variable que se pretende aplicar para el caso en concreto. Por el
contrario, cuando adquiere resultados que se acercan al valor 0, menor será el
ajuste del modelo a la variable que se pretende aplicar y, justo por eso, resultará
37.1 COEFICIENTE DE DETERMINACIÓN
La fórmula del coeficiente de determinación es la siguiente:

Se trata de una fórmula de gran complejidad, por lo que lo mejor es ir por partes.
En primer lugar, analizaremos el numerador, ya que la fórmula del coeficiente de
determinación es una fracción. El numerador de esta fórmula es la expresión de la
varianza, si bien existen dos diferencias de gran importancia. En primer lugar, la Y
lleva un circunflejo, lo cual significa que la Y es la estimación de un modelo sobre
lo que, de acuerdo con las variables aplicables al respecto, vale Y. Así, no se trata
del valor real de Y, sino de una estimación del valor de Y. En segundo lugar, falta
la división entre N (el número de observaciones en la fórmula a través de la cual
se calcula la varianza).
Ahora analizaremos el denominador de la fracción que conforma la fórmula del
coeficiente de determinación. En este caso, la única diferencia que existe respecto
de la fórmula de la varianza es que no se aplica su denominador. Así, no hay una
división entre N (número de observaciones).
38 Error estándar de estimación
El error estándar de estimación mide la desviación en una muestra valor

poblacional. Es decir, el error estándar de estimación mide las posibles
variaciones de la media muestral con respecto al verdadero valor de la media
poblacional.
Por ejemplo, si se desea conocer la edad promedio de la población de un país

(media poblacional) se toma un pequeño grupo de habitantes, a los que
32
llamaremos “muestra”. De ella se extrae la edad promedio (media muestral) y se
asume que la población tiene esa edad promedio con un error estándar de
estimación que varía más o menos.
Habría que reseñar que es importante no confundir la desviación estándar con el

error estándar y con el error estándar de estimación:
1- La desviación estándar es una medida de la dispersión de los datos; es decir,

es una medida de la variabilidad de la población.
2- El error estándar es una medida de la variabilidad de la muestra, calculada en

base a la desviación estándar de la población.
3- El error estándar de estimación es una medida del error que se comete al tomar
la media muestral como estimación de la media poblacional.
La estructura general de una fórmula para el error estándar de estimación es

la siguiente:
Error estándar de estimación = ± Coeficiente de confianza * Error estándar
Coeficiente de confianza = valor límite de un estadístico muestral o distribución

de muestreo (normal o campana de Gauss, t de Student, entre otras) para un
determinado intervalo de probabilidades.
33
Error estándar = desviación estándar de la población dividida por la raíz
cuadrada del tamaño de la muestra.
El coeficiente de confianza indica la cantidad de errores estándar que está

dispuesto a sumar y restar a la medida para tener un cierto nivel de confianza en
los resultados.
38.1 Propiedades de los mínimos cuadrados

Es un procedimiento de análisis numérico en la que, dados un conjunto de datos
(pares ordenados y familia de funciones), se intenta determinar la función continua
que mejor se aproxime a los datos (línea de regresión o la línea de mejor ajuste),
proporcionando una demostración visual de la relación entre los puntos de los
mismos. En su forma más simple, busca minimizar la suma de cuadrados de las
diferencias ordenadas (llamadas residuos) entre los puntos generados por la
función y los correspondientes datos.
Este método se utiliza comúnmente para analizar una serie de datos que se
obtengan de algún estudio, con el fin de expresar su comportamiento de manera
lineal y así minimizar los errores de la data tomada.
La creación del método de mínimos cuadrados generalmente se le acredita al

matemático alemán Carl Friedrich Gauss, quien lo planteó en 1794 pero no lo
publicó sino hasta 1809. El matemático francés Andrien-Marie Legendre fue el
primero en publicarlo en 1805, este lo desarrolló de forma independiente.
54
Su expresión general se basa en la ecuación de una recta y = mx + b. Donde m
es la pendiente y b el punto de corte, y vienen expresadas de la siguiente manera:
Σ es el símbolo sumatoria de todos los términos, mientas (x, y) son los datos en
estudio y n la cantidad de datos que existen.
34
El método de mínimos cuadrados calcula a partir de los N pares de datos
experimentales (x, y), los valores m y b que mejor ajustan los datos a una recta.
Se entiende por el mejor ajuste aquella recta que hace mínimas las distancias d de
los puntos medidos a la recta.
Teniendo una serie de datos (x, y), mostrados en un gráfico o gráfica, si al

conectar punto a punto no se describe una recta, debemos aplicar el método de
mínimos cuadrados, basándonos en su expresión general:
Cuando se haga uso del método de mínimos cuadrados se debe buscar una línea
de mejor ajuste que explique la posible relación entre una variable independiente y
una variable dependiente. En el análisis de regresión, las variables dependientes
se designan en el eje y vertical y las variables independientes se designan en el
eje x horizontal. Estas designaciones formarán la ecuación para la línea de mejor
ajuste, que se determina a partir del método de mínimos cuadrados.
35
1- SERIES CRONOLÓGICAS O HISTÓRICAS:

36
2- NÚMEROS ÍNDICES Y
DESVALORIZACIÓN MONETARIA
37
CONCLUSIÓN:
38
RECOMENDACIÓN:
39
WEB GRAFÍA:
Referencias
1. ↑ [http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf Muestreo
(publicado por la ((Universidad de Sonora))
2. ↑ Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey.
No. 300.723 S3.. 1994.
3. ↑ Martínez Bencardino, Ciro (2012). Estadística y muestreo. Bogotá: Ecoe.
4. ↑ Cochran, William G. (1980). Técnicas de muestreo. México:

CECSA.ferencias en la bibliograf´ıa I Meyer, P. “Probabilidad y aplicaciones
estad´ısticas”(1992) I Cap´ıtulo I Newbold, P. “Estad´ıstica para los
negocios y la econom´ıa”(1997) I Cap´ıtulo 10 I Peña, D. “Regresión y an
álisis de experimentos”(2005) I Cap´ıtulo 5

Estadistica Investigacion en Grupo

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Investigacion en Grupo

Cargado por

Copyright:

Formatos disponibles

1

El muestreo es necesario por el hecho de que las poblaciones pueden ser

El objetivo del muestreo es obtener inferencia sobre una población de interés, de

- Sencillo y de fácil comprensión.

- Requiere que se posea de antemano un listado completo de toda la población

¿Cuáles Son Los Pasos Para Llevar A Cabo Un Muestreo Probabilístico?

1.- Elige cuidadosamente tu población de interés: piensa detenidamente y elige

3.-Selecciona tu muestra y comienza tu encuesta: a veces puede ser difícil

Obtener una muestra para responder a una verdadera encuesta de probabilidad

En la mayoría de los casos, utilizar la técnica de muestreo probabilístico te

Ejemplos de métodos de muestreo

Conozcamos diversos tipos de muestreo probabilístico y no probabilístico que

El muestreo de probabilidad es una técnica de muestreo en la que los

Muestra viene de mostrar siendo que da a conocer a los interesados o públicos

En estadísticas, la muestra es una porción extraída mediante métodos específicos

Quizá, la definición teórica de población estadística sea un poco abstracta. Por

Con esto en mente, seguiremos la siguiente secuencia para entender el concepto:

Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la

Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el

donde N es el tamaño de la población y n el tamaño de la muestra.

Consiste en la división previa de la población de estudio en grupos o clases que se

 Asignación proporcional: el tamaño de la muestra dentro de cada estrato es

 Asignación óptima: la muestra recogerá más individuos de aquellos estratos que

Muestreo por etapas múltiples

Esta técnica es la única opción cuando no se dispone de lista completa de la población de

Muestreo por conglomerados

Se utiliza cuando la población se encuentra dividida, de manera natural, en grupos que se

Homogeneidad de las poblaciones o sus subgrupos

Homogéneo significa, en el contexto de la estratificación, que no hay mucha variabilidad.

Es aquel para el que no se puede calcular la probabilidad de extracción de una

Muestreo por cuotas

Es la técnica más difundida sobre todo en estudios de mercado y sondeos de opinión. En

Muestreo de bola de nieve

Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas, pero en

Muestreo subjetivo por decisión razonada

En este caso las unidades de la muestra se eligen en función de algunas de sus

Muestreo aleatorio simple

Errores en el Muestreo Cuando se utilizan valores muéstrales, o estadísticos para estimar

El error muestral se refiere a la variación natural existente entre muestras tomadas de la

El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se refiere a

siendo x¯¯¯x¯ e y¯¯¯y¯ la media de cada variable y xixi e yiyi el valor de las variables

 Se emplean como medida de fuerza de asociación (tamaño del efecto):

Las principales diferencias entre estos tres coeficientes de asociación son:

 La correlación de Pearson funciona bien con variables cuantitativas que tienen una

 La correlación de Spearman se emplea cuando los datos son ordinales, de

¿Qué es el coeficiente de Correlación? El coeficiente de correlación es la medida

¿Cómo se utiliza el coeficiente de correlación? Para dos variables, la fórmula compara la

¿Qué significan los valores del coeficiente de correlación? El coeficiente de

 Cuanto más se aproxima r a cero, más débil es la relación lineal.

 Los valores 1 y -1 representan una correlación "perfecta" positiva y negativa,

 El valor p nos ayuda a determinar si podemos o no concluir de manera significativa

Universidad Regional De Guatemala

Catedrática: Licenciada Heidy Bran

Segundo Semestre 2021

Nombre: Lynda Katherin Hernández Morales

Guatemala 2 de septiembre 2021

Universidad Regional De Guatemala

Catedrática: Licenciada Heidy Bran

Segundo Semestre 2021

Nombre: Lynda Katherin Hernández Morales

Guatemala 2 de septiembre 2021

11 Regresión y Correlación lineal simple

18 Series cronológicas o históricas