Está en la página 1de 44

Teoría del Muestreo

Población y muestra

Población se refiere al universo, conjunto o totalidad de elementos sobre los que se investiga
o hacen estudios. Muestra es una parte o subconjunto de elementos que se seleccionan
previamente de una población para realizar un estudio.

Normalmente se selecciona la muestra de una población para su estudio, debido a que


estudiar a todos los elementos de una población resultaría muy extenso y poco práctico.

Población Muestra

Universo de elementos Selección de una parte de la población que se va a ser


Definición que se van a estudiar. sujeto de estudio.

  Forma
Se puede clasificar según parte de la

la cantidad de individuos población: debería comprender entre 5% y 10% para


que la conforman. ser más efectiva.

 Posee  Los elementos deben ser aleatorios.


variables
Características
estadísticas.  Debe ser representativa de la población.

Analizar los datos


recabados referentes a las
características
comunes que comparten Estudiar el comportamiento, características, gustos o
los elementos con diversos propiedades de una parte representativa de la
Objetivos propósitos. población.

 Las personas que Para el estudio del desempeño de los estudiantes de

Ejemplos habitan un país. cinco universidades de una ciudad en una materia


Población Muestra

 La cantidad de carros específica, se toma como muestra a 500 estudiantes


en una ciudad. aleatoriamente (100 de cada institución) que estén
cursando el mismo nivel para que la muestra sea
 Los estudiantes de un país.
representativa.

¿Qué es población?

La población estadística, también conocida como universo, es el conjunto o la totalidad de


elementos que se van a estudiar.

Los elementos de una población lo conforman cada uno de los individuos asociados, debido
a que comparten alguna característica en común.

La población estadística puede ser un conjunto de personas, lugares o cosas reales. Por
ejemplo, los adolescentes de un pueblo o los usos posibles del azúcar en recetas de cocina.

Al ser muy complicado realizar un estudio con todos los elementos que conforman una
población, sobre todo si es considerada una población infinita, se toma una muestra
representativa de la misma para realizar los estudios.

Tipos de poblaciones

La población se puede clasificar de la siguiente manera según la cantidad de individuos que


la conforme:

 Población finita: es aquella que se puede contar y se pueden estudiar con mayor facilidad a
sus integrantes. Por ejemplo, la cantidad de personas inscritas en un gimnasio.

 Población infinita: son inmensas poblaciones donde se hace muy difícil contabilizar a sus
integrantes, por lo que suele tomarse en cuenta solo una porción de ella a la hora de realizar
un estudio, seleccionando así una muestra. Por ejemplo, la cantidad de granos de arena en
una playa.

 Población real: son grupos de integrantes tangibles. Por ejemplo, la cantidad de animales en
un zoológico.

 Población hipotética: son poblaciones posibles que pueden ser estudiadas ante una
eventualidad. Por ejemplo, la cantidad de nacimientos de bebés prematuros

¿Qué es muestra?

La muestra es una parte representativa de una población donde sus elementos comparten
características comunes o similares.

Se utiliza para estudiar a la población de una forma más factible, debido a que se puede
contabilizar fácilmente. Cuando se va a realizar algún estudio sobre el comportamiento,
propiedades o gustos del total de una población específica, se suelen extraer muestras.

Estos estudios que se realizan a las muestras sirven para crear normas o directrices que
permitirán tomar acciones o simplemente conocer más a la población estudiada.

El muestreo es una herramienta de investigación que, al ser utilizada adecuadamente,


permite obtener conclusiones específicas y evitar resultados sesgados.

Las principales ventajas de usar las muestras es la reducción de costos, pues disminuye los
elementos a estudiar y se puede realizar en menor tiempo.

Los factores más importantes a la hora de hacer un muestreo son la representatividad, para
que los elementos posean cualidades comunes según sea el propósito, y la aleatoriedad al
momento de seleccionar los elementos para evitar una muestra viciada.

Tipos de muestras

Existen diferentes tipos de técnicas para conformar una muestra.


MUESTREO ALEATORIO

Es una técnica que ofrece la misma posibilidad a los elementos de ser seleccionados, por ser
tomados al azar. Los tipos de muestreo aleatorio son:

 Muestreo aleatorio simple: los elementos se eligen de una lista al azar. Funciona más
eficazmente cuando el universo es reducido y homogéneo.

 Muestreo sistemático: el primer elemento se elige al azar y luego se escogen a intervalos


constantes los elementos restantes.

 Muestreo estratificado: se realiza dividiendo a la población en partes o estratos que


respondan a características establecidas y luego se eligen aleatoriamente los individuos que
se van a estudiar.

 Muestreo por conglomerado: la población se divide en grupos heterogéneos y éstos a su


vez se subdividen en grupos homogéneos con características comunes para ser estudiados de
acuerdo a lo requerido por el investigador.

MUESTREO NO ALEATORIO O POR SELECCIÓN INTENCIONADA

Se elige con base en el manejo de información de los elementos a estudiar, por lo que la
representatividad de la muestra puede ser subjetiva. En este caso, se corre el riesgo de que
los resultados sean sesgados.

Cuando uno solo de los estudios no es suficiente porque la población a estudiar es muy
extensa, se pueden usar dos o más tipos de muestreo

MUESTREO SIN REEMPLAZO

Considere una población de N elementos x1, x2, …, xN a partir de la cual se seleccionan


muestras de tamaño n. ¿Cuál es la media de las medias de las muestras, en términos de la
media de la población; esto es, cómo se puede expresar µ x en términos de µx? Considere
primero, el número de muestras de tamaño n que se forman a partir de la población de N
elementos.
Para una población de N elementos x1, x2, … , xN a partir de la cual se escogen muestras
de tamaño n, la media de las medias de todas las muestras posibles de tamaño n es igual a la
media de la población original. Esto es, µx = µx.

Para la población de N elementos x1, x2, . . . , xN a partir de la cual se seleccionan muestras


de tamaño n, la relación entre la desviación estándar σx , de las medias de todas las muestras
posibles de tamaño n y la desviación estándar, σx, de la población original es

N−n
σx = σx √n (N−1) .

MUESTREO CON REEMPLAZO

En muchos problemas de muestreo, el proceso tiene lugar como si una unidad fuera
reemplazada una vez que se ha sacado. Por ejemplo, si un dado se tira, hay 6 resultados
posibles (digamos 1, 2, 3, 4, 5 y 6). Si el dado se tira por segunda vez, hay también 6
resultados posibles. No se podría pensar en que si el resultado fue 1 la primera vez, es menos
probable que aparezca la segunda. El mismo resultado se puede obtener si se sacaran bolas
marcadas con los números del 1 al 6 de una bolsa y se reemplazaran antes de sacar otra.
Supongamos que se desea hacer varias mediciones de la longitud de un tablero para tomar el
promedio de ellas como una mejor estimación de la medida. Después que se obtuviera una
medición 1.80 m, ¿se podría pensar que esto reduce la probabilidad de obtener 1.80 m en el
segundo intento?

Así, un muestreo de mediciones es una clase de muestreo con reemplazo. De


estos ejemplos se puede ver que esta clase de muestreo se puede considerar cuando se trata
de poblaciones indefinidamente grandes.

En el teorema 6-1 hemos demostrado que en el caso de muestras sin reemplazo, la media de
las medias de todas las muestras posibles es igual a la media de la población original. Un
resultado semejante se cumple para la muestras con reemplazo. Consideremos una población
de N elementos x1, x2,…, xN a partir de la cual se seleccionan muestras de tamaño n, con la
condición de que después de que cada elemento de la muestra se escoja, el elemento se
reintegre a la población. De esta manera hay N posibilidades de escoger el primer elemento
de la muestra, N para el segundo, y así sucesivamente, hasta que los n elementos se hayan
seleccionado. Por tanto, cuando el remplazo es permitido, se pueden formar N nmuestras
diferentes de tamaño n a partir de una población de tamaño N.

Ahora, vamos a deducir la relación entre la media de la población original, µx, y la media de
las medias de las muestras, µx. Por definición,

1
μx = ∑Nn
i=1 xi.
Nn

Métodos de muestreo

Los métodos de muestreo se conforman en correspondencia con los tipos de muestras que se
necesitan seleccionar. Es evidente que el tipo de muestra está en relación directa con los
objetivos del trabajo, y el tipo de estudio que se necesita hacer.

En general, se plantea que existen dos grandes tipos de muestreo, que son el
muestreo probabilístico, cuando todos los elementos de la población tienen la misma
probabilidad de ser seleccionados; y el no probabilístico, cuando no se cumple lo anterior.

Los métodos de muestreo pueden ser de conveniencia, opinático, aleatorio simple,


sistemático, estratificado, de conglomerado y combinado.

* Muestreo de conveniencia: Cuando se toman los elementos de los que podemos disponer
de forma más fácil.
Ejemplo: Se pretende conocer el estado de opinión de la comunidad con respecto a la calidad
de la atención que le brinda un centro hospitalario. Para ello se decide encuestar a todas las
personas de dicha población que acuden al mismo, en el horario de visita un día determinado.
* Muestreo opinático: La selección de los elementos de la muestra se basa en la experiencia
y juicio del seleccionador.
Ejemplo: Se desea determinar cuáles son, a criterio de los profesores de una escuela, las
cualidades que debe reunir un buen alumno. Para ello se decide entrevistar a aquellos
profesores que, según la opinión del investigador, tienen el más alto nivel pedagógico dentro
del claustro.
* Muestreo aleatorio simple: Es el método de muestreo más importante, porque además se
utiliza como procedimiento en otros métodos de muestreo. Consiste en seleccionar los
elementos que integrarán la muestra mediante un procedimiento aleatorio (al azar).
Ejemplo: Se asigna un número diferente a cada elemento del universo y se seleccionan los
que integrarán la muestra por medio de una Tabla de números aleatorios o por fichas
numeradas que se extraen de un bombo.

* Muestreo sistemático: Se establece una forma de selección, que se repite siguiendo un


intervalo prefijado, el cual responde a la fórmula k = N/n; donde:
k: número entero que representa al intervalo de selección.

N: tamaño del universo o población.

n: tamaño que se fijó para la muestra.


Se toma como punto de arranque cualquier punto situado entre l y k, a partir del cual se va
adicionando el valor k.

Ejemplo: Para controlar la calidad de los exámenes complementarios realizados en un


laboratorio clínico, el jefe de laboratorio decide repetir personalmente la prueba a 10 de las
250 extracciones de sangre realizadas ese día.

N = 250 n = 10 k = 250/10 = 25
Se escoge como punto de arranque cualquier número entero entre 1 y 25 para iniciar la
selección. Supongamos que se escoge el 8, la muestra quedará entonces integrada por las
extracciones número: 8; 33; 58; 83; 108; 133; 158; 183; 208 y 233.
* Muestreo estratificado: Los elementos son seleccionados atendiendo a su pertenencia a
determinada clase o estrato, de manera que en la muestra estén representados los elementos
de cada clase en la misma proporción en que lo están en la población, objeto de estudio.
Ejemplo: Se quiere determinar la proporción de fumadores entre los pobladores de una
comunidad, según el sexo. Se fijó que el tamaño de la muestra debe ser de 300 individuos.
Si las mujeres representan el 55% de los habitantes y, por tanto, los hombres el 45% restante,
se escogerían al azar para integrar la muestra un total de 165 mujeres y 135 hombres. Ellos
representan el 55% y el 45% respectivamente de 300.
Queda así constituida la muestra con una representación de cada sexo, en la misma
proporción en que lo está en la población.
También pudo haberse operado de la manera siguiente: Si el tamaño de la muestra representa,
por ejemplo, el 20% del tamaño del universo, se selecciona el 20% del total de mujeres y de
hombres respectivamente
* Muestreo por conglomerado: Los elementos son seleccionados en forma agrupada del
universo, siguiendo algún criterio determinado de grupo de pertenencia.
Ejemplo: Para identificar los factores de riesgo vulnerables de la enfermedad virósica en los
trabajadores agrícolas de un pueblo, se seleccionan aleatoriamente un número de
cooperativas de producción agropecuaria y se estudian a todos los trabajadores de dichos
centros.

* Muestreo combinado: Es la forma de muestreo que resulta de combinar en varias etapas


dos o más de los métodos antes descritos.
Ejemplo: Para un estudio sobre enfermedades de transmisión sexual en un municipio, se
selecciona una tercera parte de los consultorios del médico de la familia del área urbana y del
área rural respectivamente (Estratificado). La muestra quedará integrada por todos los adultos
de los consultorios seleccionados (por conglomerados).

Distribución muestral

En estadística, la distribución muestral es lo que resulta de considerar todas


las muestras posibles que pueden ser tomadas de una población. Su estudio permite calcular
la probabilidad que se tiene, dada una sola muestra, de acercarse al parámetro de la población.
Mediante la distribución muestral se puede estimar el error para un tamaño de muestra dado.

La distribución de muestreo de una estadística es la distribución de esa estadística,


considerada como una variable aleatoria, cuando se deriva de una muestra aleatoria de
tamañon. Se puede considerar como la distribución de la estadística para todas las muestras
posibles de la misma población de un tamaño de muestra dado. La distribución del muestreo
depende de la distribución subyacente de la población, la estadística que se considera, el
procedimiento de muestreo empleado y el tamaño de muestra utilizado. A menudo existe un
considerable interés en si la distribución muestral puede aproximarse mediante una
distribución asintótica, que corresponde al caso límite ya que el número de muestras
aleatorias de tamaño finito, tomadas de una población infinita y utilizadas para producir la
distribución, tiende a infinito. , o cuando se toma una "muestra" del mismo tamaño infinito
de esa misma población.

Por ejemplo, considere una población normal con una media y varianza .
Supongamos que repetidamente tomamos muestras de un tamaño dado de esta población y

calculamos la media aritmética para cada muestra: esta estadística se denomina media
muestral. La distribución de estos medios, o promedios, se denomina "distribución muestral

de la media muestral". Esta distribución es normal (n es el tamaño de la muestra) ya


que la población subyacente es normal, aunque las distribuciones de muestreo también
pueden estar a menudo cerca de lo normal, incluso cuando la distribución de la población no
lo es (véase el teorema del límite central ). Una alternativa a la media muestral es la mediana
de la muestra. Cuando se calcula a partir de la misma población, tiene una distribución de
muestreo diferente a la de la media y generalmente no es normal (pero puede estar cerca para
tamaños de muestra grandes).

La media de una muestra de una población que tiene una distribución normal es un ejemplo
de una estadística simple tomada de una de las poblaciones estadísticas más simples. Para
otras estadísticas y otras poblaciones, las fórmulas son más complicadas y, a menudo, no
existen en forma cerrada . En tales casos, las distribuciones de muestreo pueden aproximarse
a través de simulaciones de Monte Carlo1[p. 2] , métodos bootstrap o teoría de distribución
asintótica.

Distribución muestral de una población; Media, varianza y proporción

Algunas distribuciones muestrales son de interés particular, como la de la Media. En este


punto se introduce las distribuciones muestrales de la Media, Varianza y proporción. Más
adelante se introducirá otras distribuciones.
a) Media

La distribución muestral de la Media depende de varios circunstancias como la distribución


de la población de la que se extrae las muestras:

1) La población se distribuye según el modelo Normal. La distribución de Medias muestrales


sigue el modelo Normal, con parámetros mu y sigma

donde sigma al cuadrado y n son la Varianza de la distribución poblacional y el tamaño de la


muestra respectivamente.

2) La población no sigue la distribución Normal. En este caso la distribución de Medias


muestrales se acerca al modelo Normal (con los mismos parámetros que hemos visto al
apartado a) cuanto mayor sea el tamaño de la muestra.

Algunas características de la distribución muestral de la Media

1) La variación de la distribución muestral es menor cuanto mayor sea n (tamaño de la


muestra) siempre que la Varianza de la población sea la misma.

Explicación: La fórmula de la Varianza de la distribución muestral de la Media es:

cuanto mayor es el denominador (n), más pequeño es el valor del término a la izquierda del
"igual".

Ejemplo

A continuación se presenta las Varianzas y los Histogramas de tres distribuciones muestrales


de la Media (número de muestras=100) en que los tamaños de las muestras son n=25, n= 100
y n=1000.

n=25
Varianza= 0.43

n=100

Varianza= 0.11

n= 1000

Varianza= 0.01

Los valores de la Varianza de la distribución de Medias muestrales son inferiores y la


dispersión observada en los Histogramas (ver en el eje horizontal que la amplitud de la
variable disminuye) cuanto mayor es n.

2) Cuando la distribución de Medias muestrales aproxima la distribución Normal, podemos


obtener probabilidades de las Medias muestrales.

Ejemplo
Si obtenemos una Media muestral igual a 6, y sabemos que la distribución muestral es
Normal(5,2) -el 5 es la media y el 2 la Desviación Típica de la distribución muestral- la
probabilidad de obtener puntuaciones iguales o inferiores a 6 es

La probabilidad de obtener valores iguales o inferiores a 0.5 en una distribución Normal es


0.69 (consultar tablas o funciones de probabilidad de la distribución Normal).

b) Varianza

La distribución muestral del estimador de la Varianza, (la Cuasivarianza) es:

Donde n es el número de grados de libertad.

c) Proporción

La distribución de p aproxima la distribución Normal con parámetros

si el producto np es mayor que 5.

Ejemplo

La distribución muestral de la proporción de "suspenso" en un muestreo aleatorio en que el


número de muestras es igual a 10000, el tamaño de la muestra es igual a 20 y la probabilidad
de obtener "suspenso" es igual 0.3 es
A recordar

Muestra: Subconjunto de la población.

Distribución muestral: Distribución del estadístico obtenido en las muestras.

Parámetro: Característica de la población.

N: Tamaño de la población.

n: Tamaño de la muestra.

Diferenciación de los símbolos de la muestra, población y distribución muestral:

Muestreo: Proceso de selección de las muestras

Estimación puntual

Una estimación es puntual cuando se usa un solo valor extraído de la muestra para estimar
el parámetro desconocido de la población. Al valor usado se le llama estimador.

 La media de la población se puede estimar puntualmente mediante la media de la


muestra:

 La proporción de la población se puede estimar puntualmente mediante la proporción


de la muestra:
 La desviación típica de la población se puede estimar puntualmente mediante la
desviación típica de la muestra, aunque hay mejores estimadores:

Estimación por intervalos

La estimación por intervalos consiste en establecer el intervalo de valores donde es más


probable se encuentre el parámetro. La obtención del intervalo se basa en las siguientes
consideraciones:

a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades


de ocurrencia de los estadísticos muestrales.

b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la probabilidad


de que el estimador se halle dentro de los intervalos de la distribución muestral.

c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se


establece alrededor del estimador. Si repetimos el muestreo un gran número de veces y
definimos un intervalo alrededor de cada valor del estadístico muestral, el parámetro se sitúa
dentro de cada intervalo en un porcentaje conocido de ocasiones. Este intervalo es
denominado "intervalo de confianza".

Ejemplo

Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución
Normal, y resulta:
La distribución de las Medias muestrales aproxima al modelo Normal:

En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias muestrales es

(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución muestral
son los valores cuya función de distribución es igual a 0.975 y 0.025 respectivamente y se
pueden obtener en las tablas de la distribución Normal estandarizada o de funciones en
aplicaciones informáticas como Excel). Seguidamente generamos una muestra de la
población y obtenemos su Media, que es igual a 4.5. Si establecemos el intervalo alrededor
de la Media muestral, el parámetro poblacional (5.1) está incluido dentro de sus límites:

Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por esa razón,
la distancia desde m a la Media muestral es la misma que va de la Media muestral a m. En
consecuencia, si hacemos un muestreo con un número grande de muestras observamos que
el 95% de las veces (aproximadamente) el valor de la Media de la población (m) se encuentra
dentro del intervalo definido alrededor de cada uno de los valores de la Media muestral. El
porcentaje de veces que el valor de m se halla dentro de alguno de los intervalos de confianza
es del 95%, y es denominado nivel de confianza.
Si queremos establecer un intervalo de confianza en que el % de veces que m se halle dentro
del intervalo sea igual al 99%, la expresión anterior es:

(Obtenemos el valor +-2.58 que multiplica la Desviación Típica de la distribución muestral


en las tablas de la distribución Normal estandarizada o de funciones en aplicaciones
informáticas como Excel), y son los valores cuya función de probabilidad es igual a 0.995 y
0.005 respectivamente).

Ejemplo

La siguiente imagen muestra la distribución de las Medias muestrales obtenidas de 100000


muestras aleatorias y los intervalos alrededor de cada una de las Medias obtenidas de diez de
las muestras:

donde ls y le simbolizan los límites superior e inferior del intervalo de confianza al 95%.
Nueve de los diez intervalos (salvo el definido alrededor de la Media muestral igual a 3.7)
incluyen el valor del parámetro dentro sus límites.

Intervalo de confianza para una población

De una población de media y desviación típica se pueden

tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media. Se
puede demostrar que la media de todas las medias muestrales coincide con la media

poblacional:3

Pero además, si el tamaño de las muestras es lo suficientemente grande,4 o la distribución


poblacional es normal, la distribución de medias muestrales es, prácticamente,
una distribución normal (o gaussiana) con media μ y una desviación típica dada por la

siguiente expresión: . Esto se representa como sigue: . Si estandarizamos, se sigue

que:

En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual
caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2tales
que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las
tablas en una distribución normal).

En esta distribución normal de medias se puede calcular el intervalo de confianza donde se

encontrará la media poblacional si solo se conoce una media muestral ( ), con una
confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por

ciento. A este valor se le llamará (debido a que es el error que se cometerá, un


término opuesto).

Para ello se necesita calcular el punto —o, mejor dicho, su versión

estandarizada o valor crítico— junto con su "opuesto en la distribución" . Estos


puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:

Complementos: Intervalos para muestras grandes

Bajo ciertas condiciones de regularidad, es posible construir intervalos de confianza


asintóticos de una manera bastante general.

Si suponemos que un parámetro θ tiene una estimación máximo verosímil θ*, la distribución
asintótica del estimador, bajo condiciones generales de regularidad, es Normal, de media el
valor verdadero del parámetro θ y varianza igual a la cota de Cramér-Rao σ2(θ*).
Bajo las suposiciones anteriores, es posible construir un intervalo de confianza asintótico y
con nivel de confianza (1 − α) · 100 % a partir de

donde los valores de zα/2 se calculan a partir de la distribución N(0, 1) de forma que P(|Z|
> zα/2) = α.

Es decir, se utiliza como estadístico pivote

El intervalo de confianza aproximado que resulta es:

Intervalos de confianza para muestras pequeñas

(n < 30)
Cuando tratamos con muestras pequeñas, no podemos invocar el teorema del límite central.
Por lo tanto, no podemos utilizar la fórmula para los intervalos de confianza a menos que sean
muestras desde una variable aleatoria normalmente distribuida.

Sin embargo, hay una cuestión más: Si conocemos la desviación estándar poblacional

σ,

entonces todo está bien, y podemos seguir adelante y utilizar la fórmula anterior para el
intervalo de confianza para muestras pequeñas (suponiendo que estamos tomando muestras
de una variable distribuida normalmente). Pero si, como suele ser el caso, no sabemos

σ,

entonces si seguimos adelante y utilizamos en su lugar la desviación estándar muestral

s,

es probable que obtengamos intervalos de confianza que son demasiado pequeños. La razón
es que, mientras que la distribución muestral de

(x − μ)/σ,

es normal (siempre que

es normal) la distribución muestral de

(x − μ)/s

no es normal (a menos que se trate de muestras grandes, en cuyo caso es aproximadamente


normal).

P ¿Por qué hay que preocuparse de la distribución muestral de

(x − μ)/s

?
R La razón que nos debemos preocupar es que, cuando utilizamos

s
en lugar de

σ,

entonces el cálculo del intervalo de confianza se basa en la probabilidad de que

está dentro de un cierto número de desviaciones estándar de la media

μ.

Este número de desviaciones estándar es

(x − μ)/σ.

Entonces establecemos que equivale a valor

−z

deseado y resolverlo para

para obtener el intervalo de confianza (después de dividir la desviación estándar por

). Cuando utilizamos s en vez de

σ,

no podemos utilizar un valor

−z,

ya que la distribución de

(x − μ)/s

no es normal, pero se distribuye de acuerdo con la "distribución

−t
".

Resulta que, en lugar de utilizar

zα/2

en la fórmula, tenemos que utilizar

tα/2.

Además, obtenemos diferentes distribuciones

para diferentes tamaños muéstrales, y utilizamos el valor de

tα/2

correspondiente a "

n−1

grados de libertad", que podemos obtener de una tabla.

Muestra pequeña

100(1 − α)%

Intervalo de confianza

Cuando la desviación estándar poblacional α es conocida:

x ±zα/2

σ Igual que la fórmula de muestras

√ grandes

x=

media muestral
n=

tamaño muestral

σ=

desviación estándar poblacional

zα/2 =

valor

−z

con un área de

α/2

a la derecha (obtenido a partir de una tabla).

Cuando se conoce solo la desviación estándar muestral

s:

x ±tα/2

s utilizamos t en lugar de

√ z

x=

media muestral

n=

tamaño muestral

s=

desviación estándar muestral


tα/2 =

valor

−t

con un área de

α/2

a la derecha

(tα/2

puede ser obtenido a partir de una tabla.).

Intervalo para proporción

Intervalos de confianza para proporciones

En la inferencia sobre una proporción el problema se concreta en estimar y contrastar la


proporción p de individuos de una población que presentan una determinada
característica A (proporción de votantes a un partido político, proporción de parados, ...). El
problema se modeliza mediante una variable dicotómica que toma el valor 1 si se presenta la

característica de interés y 0 en caso contrario, esto es, una variable de Bernoulli,


,de la que se dispone de una muestra de tamaño n. Entonces, la proporción poblacional p no
es otra cosa que la media poblacional de dicha variable, estimándose con la correspondiente

proporción muestral o media muestral, .

En el caso de dos poblaciones, se trata de comparar la proporción en la que se presenta una


cierta característica A en las mismas (comparar la proporción de voto a un partido en dos
regiones, comparar la proporción de parados entre hombres y mujeres, ...). El problema se
modeliza mediante dos variables de Bernoulli independientes, de las que se dispone de sendas

muestras aleatorias de tamaño y , respectivamente.

Una población I. de C. sobre la proporción poblacional

Proporciones

I. de C. sobre la diferencia de proporciones


Dos poblaciones
poblacionales

Intervalo de confianza sobre la proporción poblacional

A partir del estadístico

se construye el intervalo

siendo el valor que en una distribución normal estándar deja a su derecha una

probabilidad de .

Véase en la hoja adjunta un ejemplo.


Cuando se va a realizar una encuesta para estimar una proporción, lo habitual es plantearse a
priori obtener una cierta fiabilidad y precisión en la estimación, buscando el tamaño muestral
necesario para conseguirlas. La longitud del intervalo de confianza para p resulta:

De aquí podremos calcular el valor de n en función de la longitud del intervalo, L, y de su


fiabilidad, 1- :

Adviértase que llegamos a un resultado en principio incongruente: queremos saber cuántas


observaciones tenemos que realizar para estimar p y para ello necesitaremos conocer su
estimación, valor que conoceremos una vez hayamos realizado las observaciones. ¿Cómo
solucionar este problema? Existen tres posibles vías:

a) Si tuviésemos información (encuestas anteriores, opiniones de experto,...) sobre el posible


valor de la proporción a estimar, sustituiríamos este valor en la anterior expresión.
b) Podríamos realizar una pequeña encuesta (encuesta piloto) que nos proporcionase una
primera evaluación de la proporción muestral. Además, esta encuesta puede servir para
probar y reformar el cuestionario, organizar el trabajo de campo, etc.
c) Si no contásemos con información alguna ni tuviésemos la posibilidad de realizar la
encuesta piloto, nos pondríamos en la situación más desfavorable, esto es, la que da lugar al
tamaño muestral más grande para la fiabilidad y precisión deseadas. Esa situación se produce
cuando n alcanza su máximo, lo cual ocurre cuando p=q=0.5.

En este caso, por otro lado el más habitual, resulta:

En la hoja adjunta se obtiene el tamaño muestral para una fiabilidad y una precisión
determinada en el caso más desfavorable (p=q=0.5).
Intervalo de confianza sobre la diferencia de proporciones poblacionales

A partir del estadístico

se construye el intervalo

siendo el valor que en una distribución normal estándar deja a su derecha una

probabilidad de .

Intervalo para varianza

Dada una variable aleatoria con distribución Normal N(μ σ , el objetivo es la


construcción de un intervalo de confianza para el parámetro σ, basado en una muestra de
tamaño n de la variable.

A partir del estadístico

la fórmula para el intervalo de confianza, con nivel de confianza 1 − α es la siguiente


Donde χ2α/2 es el valor de una distribución ji-cuadrado con n − 1 grados de libertad que deja
a su derecha una probabilidad de α/2

Por ejemplo, dados los datos siguientes:

 Distribución poblacional: Normal

 Tamaño de muestra: 10

 Confianza deseada para el intervalo: 95 %

 Varianza muestral corregida: 38,5

Un intervalo de confianza al 95 % para la varianza de la distribución viene dado por:

que resulta, finalmente

Nivel de significación estadística

En estadística, un resultado o efecto es estadísticamente significativo cuando es improbable


que haya sido debido al azar. Una "diferencia estadísticamente significativa" solamente
significa que hay evidencias estadísticas de que hay una diferencia; no significa que la
diferencia sea grande, importante o radicalmente diferente.

El nivel de significación de una prueba estadística es un concepto estadístico asociado a


la verificación de una hipótesis. En pocas palabras, se define como la probabilidad de tomar
la decisión de rechazar la hipótesis nula cuando ésta es verdadera (decisión conocida
como error de tipo I, o "falso positivo"). La decisión se toma a menudo utilizando el valor p:
si el valor p es inferior al nivel de significación, entonces la hipótesis nula es rechazada.
Cuanto menor sea el valor p, más significativo será el resultado.

En otros términos, el nivel de significación de un contraste de hipótesis es una


probabilidad p tal que la probabilidad de tomar la decisión de rechazar la hipótesis nula -
cuando ésta es verdadera - no es mayor que p.

El nivel de significación es comúnmente representado por el símbolo griego α (alfa). Son


comunes los niveles de significación del 0.05, 0.01 y 0.001. Si un contraste de
hipótesisproporciona un valor p inferior a α, la hipótesis nula es rechazada, siendo tal
resultado denominado 'estadísticamente significativo'. Cuanto menor sea el nivel de
significación, más fuerte será la evidencia de que un hecho no se debe a una mera
coincidencia (al azar).

En algunas situaciones es conveniente expresar la significación estadística como 1 − α. En


general, cuando se interpreta una significación dada, se debe tomar en cuenta que,
precisamente, está siendo probada estadísticamente.

Diferentes niveles de α tienen distintas ventajas y desventajas. Valores pequeños de α otorgan


mayor confianza en la determinación de la significación, pero hacen correr mayores riesgos
de equivocarse al aceptar una hipótesis nula falsa (error de tipo II o "falso negativo"), con lo
cual se pierde potencia de estudio. La elección de un nivel de α inevitablemente envuelve un
compromiso entre significación y potencia, y consecuentemente entre errores de tipo I y de
tipo II.

En algunos campos, por ejemplo física nuclear y de partículas, es común expresar la


significación estadística en unidades de "σ" (sigma), el desvío estándar de una distribución

de Gauss. La significación estadística de " " puede ser convertida en un valor α por medio
de la función error:

El uso de σ está motivado por la importancia de la distribución gaussiana para medir


incertezas. Por ejemplo, si una teoría predice que un parámetro tendrá un valor de, digamos,
100, y el parámetro medido resulta de 109 ± 3, luego se puede informar la medición como
un "desvío de 3σ" de la predicción teórica. En términos de α, esta afirmación es equivalente
a decir que "asumiendo que la teoría sea cierta, la posibilidad de obtener el resultado
experimental por casualidad es 0,27% (dado que 1 − erf(3/√2) = 0,0027).

Los niveles fijos de significación tales como los mencionados pueden ser considerados como
útiles en el análisis exploratorio de datos. Sin embargo, la recomendación de la estadística
moderna es que, cuando el resultado de un test es esencialmente el resultado final de un
experimento o de otro estudio, el valor p debería ser citado explícitamente. Y, sobre todo,
debería ser citado si el valor p es juzgado o no como significativo. Esto es para permitir que
el máximo de información sea transferido de un resumen de estudio al metaanálisis.

Error tipo I y II

Existe un Error Tipo I: si dicen que concluyen que hay diferencia, cuando en realidad no
Todas las pruebas de hipótesis estadísticas tienen una probabilidad de cometer errores tipo I
y tipo II.

Un falso positivo en la medicina provoca preocupación o tratamientos innecesarios, mientras


que un falso negativo da al paciente la peligrosa ilusión de la buena salud y el paciente puede
no tener un tratamiento disponible
Un falso positivo en la fabricación de control de calidad descarta un producto que está en
realidad bien hecha, mientras que unos sellos falsos negativos de un producto roto como
operacional
Un falso positivo se produce cuando el filtrado de correo no deseado o las técnicas de bloqueo
de spam clasifican erróneamente un mensaje de correo electrónico legítimos como spam, Un
falso negativo se produce cuando un mensaje de spam que no es detectado como spam, pero
se clasifica como no-spam
La única manera de minimizar ambos tipos de error, sin apenas mejora de la prueba, es
aumentar el tamaño de la muestra, y esto puede no ser factible.

Ing Daniel Duque


El error de tipo I se comete cuando la hipótesis nula es verdadera y, como consecuencia del
contraste, se rechaza.
El error de tipo II se comete cuando la hipótesis nula es falsa y, como consecuencia del
contraste se acepta.
¿Que es error tipo I?
Existe un error de Tipo II: cuando no logro identificar la diferencia cuando existe

Un error de tipo II, también conocido como un error tipo beta (β), se produce cuando la
hipótesis nula es falsa, pero erróneamente no ser rechazada.

Un error de tipo II se comete cuando dejamos de creer en una verdad. En términos de los
cuentos populares, un investigador puede dejar de ver el lobo. Una vez más, H0: ningún lobo.

ERROR TIPO I Y TIPO II


En el uso coloquial que error se puede considerar:

"condenar a un inocente" y el error tipo II "dejar a un culpable en libertad"

Una prueba de sangre no detectar la enfermedad que fue diseñado para detectar, en un
paciente que realmente tiene la enfermedad

Un ensayo clínico de un tratamiento médico no demostrar que el tratamiento funciona,


cuando en realidad lo hace.

La probabilidad de cometer Error de tipo I es el nivel de significación α.

La probabilidad de cometer Error de tipo II depende del verdadero valor del parámetro. Se
hace tanto menor cuanto mayor sea n.

Ejemplos error tipo I


Ejemplo de error tipo II
¿Que es el Error tipo II?
El error de tipo I también denominado error de tipo alfa (α)1 o falso positivo, es el error que
se comete cuando el investigador no acepta la hipótesis nula (H o) siendo esta verdadera en
la población.

Un error de tipo I se produce cuando creemos una mentira. En términos de los cuentos
populares, un investigador puede ser "falsas alarmas" sin un lobo a la vista.

Error de falsos positivos o Tipo I

es un resultado que indica una determinada condición se ha cumplido, cuando en realidad no


se ha cumplido.

un error de tipo I conduce a la conclusión de que existe una cosa o la relación cuando en
realidad no lo hace

Modelo de regresión

Un modelo de regresión es un modelo matemático que busca determinar la relación


entre una variable dependiente (Y) con respecto a otras variables llamadas explicativas
o independientes (X).
El modelo de regresión se suele utilizar en las Ciencias Sociales con el fin de determinar si
existe o no relación causal entre una variable dependiente (Y) y un conjunto de otras variables
explicativas (X). Asimismo, el modelo busca determinar cuál será el impacto sobre la
variable Y ante un cambio en las variables explicativas (X).

Así por ejemplo, un economista podría estar interesado en determinar la relación entre el
ingreso de los trabajadores y su nivel de educación. Para esto, podría llevar acabo un modelo
de regresión en el cual la variable independiente (Y) será el ingreso del trabajador. En cuanto
a las variables explicativas (X), se deben incluir todas aquellas que podrían explicar el ingreso
entre las que se encuentran por supuesto la educación, la experiencia, la educación de los
padres, etc.

Forma del modelo de regresión


El modelo de regresión simple tiene la siguiente forma:

Y = A + BX + u

Y= variable dependiente o endógena

X= variable independiente o explicativa

A, B = parámetros fijos y desconocidos

Correlacion lineal simple y múltiple

REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE. REGRESIÓN NO LINEAL.

Regresión Lineal Simple y Múltiple.

El caso más simple de regresión lineal ajusta a la ecuación de la recta los valores de la variable
independiente X1 a la variable dependiente Y, es decir:

Y = b0+b1X1,

donde b0 es la ordenada en el origen y b1 es la pendiente de la recta. El ajuste a esta ecuación


(mediante mínimos cuadrados) se caracteriza por la obtención de b0, b1 y el coeficiente de
correlación r.

La regresión lineal múltiple se basa en obtener una relación lineal entre un conjunto de
variables independientes X1,..,Xn con una variable dependiente Y, es decir:

Y = b0+b1X1+b2X2+b3X3+ ··· +bnXn.

El éxito de determinar una correlación lineal múltiple es que exista una correlación lineal
simple de cada variable independiente con la variable dependiente.
El estudio de la relación lineal simple y múltiple en R se realiza de la misma forma y se
recoge en el script_Regresion_Lineal.. Para ello se utiliza la función de regresión lineal lm().
Dicha función esta definida por una variable dependiente, y una o varias variables
independientes (si es una variable independientes estamos trabajando con una regresión lineal
simple; si son varias las variables entonces es una regresión múltiple). Por ello, se ha de
indicar a la función lm() cuál es la variable dependiente y cuales son las independientes. La
forma de expresarse en R es: variable dependiente ~ variable/s independiente/s. Por ejemplo:

la variable dependiente Y en función de X1: Y~ X1


la variable dependiente Y en función de X1 y X2: Y~ X1+X2
la variable dependiente Y en función de todas las variables independientes (se usa el ‘.’):
Y~.

También hay que indicarle dónde están guardadas esas variables y almacenarlas. Así,
añadimos data=datos a la función lm(), es decir, indicamos que las variables están
almacenadas en datos. Posteriormente las almacenamos el resultado en reg. Los pasos a
seguir son (recordar que en primer lugar se cargan los datos):

datos<-read.table("datos.txt",header=T,blank.lines.skip=F)
reg<-lm(Y~.,data=datos)

En función de los resultados obtenidos en el modelo lineal (como se verá en el siguiente


ejemplo) éste se puede mejorar eliminado variables independientes que tienen poco peso
estadístico en la función. De esta forma se puede conseguir un modelo predictivo más
preciso, aunque la eliminación de estas variables puede disminuir la calidad del modelo
geoquímico-predictivo.

Por último, siempre resulta práctico comprobar gráficamente los valores del modelo
predictivo (o teórico) con los valores experimentales con el objeto de cuantificar la bondad
del modelo predictivo y evaluar si el modelo se ajusta para todo el intervalo de valores. En
primer lugar, guardamos los datos del ajuste lineal (reg$fitted.values) y en segundo lugar lo
almacenarlos (con la variable Y_teor). Es decir:

Y_teor<-reg$fitted.values
Finalmente se representa gráficamente los datos experimentales (datos$Y) frente a los datos
teóricos (Y_teor) y el ajuste de la regresión lineal:

plot(datos$Y,Y_teor)
abline(lm(datos$Y~Y_teor),col="blue")

Si queremos realizar un análisis de regresión lineal simple o múltiple debemos cargar


el script_Regresion_Lineal.

Ejercicio 1. Regresión lineal simple

Obtener la ecuación de la recta o correlación lineal entre el la concentración de Cr (variable


independiente) y la concentración de Ni (variable dependiente) a partir de los datos obtenidos
en el Ejercicio 1 de las prácticas de Matriz de correlación y gráficos de dispersión.

Este ejercicio se puede realizar cambiando los encabezados Cr por X1 y Ni por Y y usar la
sintaxis genérica explicada anteriormente:

datos<-read.table("datos.txt",header=T,blank.lines.skip=F)
reg<-lm(Y~X1,data=datos)
Y_teor<-reg$fitted.values
plot(datos$Y,Y_teor)
abline(lm(datos$Y~Y_teor),col="blue")

O bien dejar los encabezados originales y cambiar la sintaxis:

datos<-read.table("datos.txt",header=T,blank.lines.skip=F)
reg<-lm(Ni~Cr,data=datos)
Y_teor<-reg$fitted.values
plot(datos$Ni,Y_teor)
abline(lm(datos$Ni~Y_teor),col="blue")

Ejercicio 2. Regresión lineal multiple


Se ha estudiado el comportamiento frente a la cristalización de las sales 10 rocas porosas
utilizadas como material de construcción. La durabilidad de estas rocas se ha estimado
mediante la pérdida de masa después de cristalización de sales. Además se caracterizaron
diferentes propiedades de la roca, como la resistencia a la compresión simple, la densidad de
conjunto (o aparente), y la porosidad efectiva y el tamaño medio de poro, ambas obtenidas
con porosimetría de intrusión de mercurio.

El objetivo de este ejercicio es seleccionar el mejor modelo lineal múltiple para predecir la
durabilidad de las rocas (variable dependiente) en función de las otras variables
(independientes). Este ejemplo muestra cómo se pueden transformar variables
independientes para que tengan una influencia lineal sobre la variable dependiente (Datos
obtenidos en: Benavente et al., (2007): The influence of petrophysical properties on the salt
weathering of porous building rocks. Environ Geol 52:197–206).

El primer paso es realizar la matriz de correlación y el grafico de dispersión. De esta forma


podemos evaluar qué variables se pueden transformar o eliminar por no ser significativas.
Los gráficos de dispersión muestran una relación inversa entre la pérdida de masa y el tamaño
de poro y la resistencia mecánica. Para ello, en la matriz de datos.txt añadir una columna con
la inversa del tamaño del poro (r-1) y otra con la inversa de la resistencia a la compresión
simple (RCS-1).

Observando los p-valores (Pr(>|t|)) de los contrastes de significatividad individual, vemos


que las variables no significativas (p-valor > 0.05) son la porosidad y la densidad de conjunto.
Eliminando estas variables (en realidad teniendo en cuenta todas las variables menos éstas:
reg<-lm(LWD~r-1+RCS-1,data=datos)), volvemos a realizar la regresión lineal y obtenemos
la siguiente regresión lineal múltiple:

LWD [%] = -2.99 + 1.05/r[micras] + 145.39/RCS [MPa].

En este último modelo todas las variables son significativas.

Los resultados obtenidos y el procedimiento seguido en esta práctica no son tan sencillos
cuando se aplican en muchos problemas geológicos/geoquímicos, los cuales pueden llegar a
ser mucho más complejos que el mostrado aquí. En la mayoría de los problemas
geológicos/geoquímicos se eliminan las variables que menos están relacionadas (lo que el
análisis factorial será de gran utilidad) y se intenta buscar un modelo que contenga el mayor
número de variables con el mayor valor del coeficiente de correlación.

Ejercicio 3. Regresión lineal multiple

Obtener una expresión lineal múltiple que relaciones variables de la cuenca, X1, ...,X6, con
la magnitud de la cuenca, Y, definida como el número de cursos fluviales (ríos, arroyos,
afluentes, etc.). Las variables (independientes) de la cuenca son X1: elevación de la
desembocadura de la cuenca (pies, ft); X2: relieve (profundidad) de la cuenca (pies,ft); X3:
área de cuenca (milla2); X4: longitud total del cursos fluviales (ríos, arroyos, afluentes, etc.)
(milla); X5: densidad de drenaje, definido como X4 / X3 ·100; X6: factor de forma de la
cuenca, la cual cuantifica su desviación con respecto a una sección circular. El objetivo de
esta práctica es predecir el valor de la magnitud de la cuenca, Y, a partir de todas las variables
de la cuenca debido a que cada una de ellas son importantes y necesarias para el modelo
físico. Para evaluar la fiabilidad del ajuste o estimación de Y a partir de la expresión lineal
múltiple, representar el valor real de Y frente al valor estimado por la función (Davis, 2002).

Regresión no Lineal.

Muchas de las relaciones entre variables que estudiamos en geoquímica no son lineales. Se
pueden destacar las funciones logarítmica, inversa, cuadrática, cúbica,
potencia, exponencial, etc. En la siguiente tabla se definen las funciones mas utilizadas:

- Lineal. Modelo cuya ecuación es Y = b0 + (b1 * t).


- Logarítmica. Modelo cuya ecuación es Y = b0 + (b1 * ln(t)).
- Inversa. Modelo cuya ecuación es Y = b0 + (b1 / t).
- Cuadrático. Modelo cuya ecuación es Y = b0 + (b1 * t) + (b2 * t**2).
- Cúbico. Modelo definido por la ecuación Y = b0 + (b1 * t) + (b2 * t**2) + (b3 * t**3).
- Potencia. Modelo cuya ecuación es Y = b0 * (t**b1) ó ln(Y) = ln(b0) + (b1 * ln(t)).
- Compuesto. Modelo cuya ecuación es Y = b0 * (b1**t) ó ln(Y) = ln(b0) + (ln(b1) * t).
- Curva-S. Modelo cuya ecuación es Y = e**(b0 + (b1/t)) ó ln(Y) = b0 + (b1/t).
- Crecimiento. Modelo cuya ecuación es Y = e**(b0 + (b1 * t)) ó ln(Y) = b0 + (b1 * t).
- Exponencial. Modelo cuya ecuación es Y = b0 * (e**(b1 * t)) ó ln(Y) = ln(b0) + (b1 *
t).

En general, para determinar qué modelo utilizar se representan los datos y se ajustan al
modelo más adecuado teniendo en cuenta la bondad del ajuste dentro del rango de datos
medidos experimentalmente y/o fuera del dicho rango (debido al carácter predictivo de las
funciones).

Antes de cargar los datos, es necesario comprobar que no tengamos valores de la variable
dependiente o independiente igual a 0 debido a que en muchas transformaciones se obtiene
el logaritmo de la variable. Para ello se aconseja cambiar el valor 0 por 0.001 o eliminar fila.
Análogamente podemos tener problemas con valores negativos.

En el siguiente ejemplo (desarrollado para el Ejercicio 8) se muestra el script Regresion No


Lineal, en el que se utiliza como variable independiente X y como dependiente H_1.

Ejercicio 4. Regresión no lineal

Se quiere estudiar la variación del contenido de humedad de arcillas con la profundidad en


dos sondeos en la costa este de Luisiana. Ajustar la variación de humedad en ambas muestras
con la profundidad a una función exponencial y a una polinómica (cuadrática). (a) ¿Qué
función se ajusta mejor a rango de datos medidos (0-35m)? (b) ¿Qué función estimaría mejor
el contenido de humedad 50 metros? Estimar el valor de humedad a 50m con ambas
funciones en el sondeo 1 (Davies, 2002).

R: La función que mejor se ajusta en el intervalo de trabajo 0-35m es la función cuadrática


(tiene mayor r); sin embargo la que mejor va a predecir el valor de la humedad para valores
superiores a 35m es la exponencial.

Recta que mejor se ajusta (Método de mínimos cuadrados)

Una recta que mejor se ajusta es una línea recta que es la mejor aproximación del conjunto
de datos dado.

Es usada para estudiar la naturaleza de la relación entre dos variables.


Una recta que mejor se ajusta puede ser determinada aproximadamente usando el método
visual al dibujar una línea recta en unagráfica de dispersión para que tanto el número de
puntos arriba de la recta y debajo de la recta sean casi iguales (y la línea pasa a tráves de
tantos puntos como sea posible).

Una forma más precisa de encontrar la recta que mejor se ajusta es el método de mínimos
cuadrados .

Use los pasos siguientes para encontrar la ecuación de la recta que mejor se ajusta para un
conjunto de parejas ordenadas .

Paso 1: Calcule la media de los valores de x y la media de los valores de y .

Paso 2: Realice la suma de los cuadrados de los valores de x .

Paso 3: Realice la suma de cada valor de x multiplicado por su valor correspondiente y .

Paso 4: Calcule la pendiente de la recta usando la fórmula:

donde n es el número total de puntos de los datos.

Paso 5: Calcule la intercepción en y de la recta usando la fórmula:

donde son las medias de las coordenadas de x y y de los puntos de datos


respectivamente.

Paso 6: Use la pendiente y la intercepción en y para formar la ecuación de la recta.

Ejemplo:
Use el método de mínimos cuadrados para determinar la ecuación de la recta que mejor se
ajusta para los datos. Luego grafique la recta.

Solución:

Grafique los puntos en un plano coordenado .

Calcule las medias de los valores de x y los valores de y , la suma de los cuadrados de los
valores de x , y la suma de cada valor de xmultiplicado por su valor correspondiente y .
Calcule la pendiente.

Calcule la intercepción en y .

Primero, calcule la media de los valores de x y la media de los valores de y .

Use la fórmula para calcular la intercepción en y .


Use la pendiente y la intercepción en y para formar la ecuación de la recta que mejor se ajusta.

La pendiente de la recta es -1.1 y la intercepción en y es 14.0.

Por lo tanto, la ecuación es y = -1.1 x + 14.0.

Dibuje la recta en la gráfica de dispersión.


Bibliografía

Población y Muestra

https://www.diferenciador.com/poblacion-y-muestra/

Muestreo con y sin remplazo

Probabilidad y estadística. Autor Stephen S. Willoughby. Sexta reimpresión 1978 México.


Editorial CIA. Impresora Gutenberg Probabilidad y aplicaciones
estadísticas. Autor Paul L. Meyer. 1989 México. Editorial Impresora Azteca.
http://www.uaq.mx/matematicas/estadisticas/xu5.html http://sitios.ingenieria-
usac.edu.gt/estadistica/estadistica3/muestreosimplealeatorio.html
http://www.mat.uda.cl/hsalinas/cursos/2009/estadistica/resueltos-probabilidades.pdf
http://www.vitutor.com/pro/5/a_a.html

Métodos de Muestreo

http://www.abc.com.py/articulos/metodos-de-muestreo-700633.html
-Kenneth D. Hopkins. Estadística Básica. Prentice Hall. México. 1997.

Distribuciones muestrales

https://es.wikipedia.org/wiki/Distribuci%C3%B3n_muestral

Distribuciones muestrales de una población: media, varianza y proporción

https://www.uv.es/webgid/Inferencial/3_media_varianza_y_proporcin.html

Estimación puntual y estimación por intervalos de confianza

https://www.uv.es/webgid/Inferencial/5_estimacin_por_intervalos.html

Intervalo de confianza para una población

https://es.wikipedia.org/wiki/Intervalo_de_confianza#Intervalo_de_confianza_de_la_media
_de_una_poblaci%C3%B3n
Intervalo para media con muestra grande

http://www.ub.edu/stat/GrupsInnovacio/Statmedia/demo/Temas/Capitulo8/B0C8m1t19.htm

Intervalo para media con muestra pequeña

https://www.zweigmedia.com/MundoReal/finitetopic1/confint.html

Intervalo para proporción

http://www5.uva.es/estadmed/inferen/estima_inter/intervalos3.htm

Nivel de significancia

https://es.wikipedia.org/wiki/Significaci%C3%B3n_estad%C3%ADstica

Error tipo I y II

https://prezi.com/uatqmo0madcj/error-tipo-i-y-tipo-ii/

Modelo de Regresión

https://economipedia.com/definiciones/modelo-de-regresion.html

Correlación lineal, simple y múltiple

https://web.ua.es/es/lpa/docencia/analisis-estadistico-de-datos-geoquimicos-con-
r/regresion-lineal-simple-y-multiple-regresion-no-lineal.html

Recta de regresión de mínimos cuadros

https://www.varsitytutors.com/hotmath/hotmath_help/spanish/topics/line-of-best-fit

También podría gustarte