TRABAJO Estadistica #3

República Bolivariana De Venezuela.
Ministerio del Poder Popular Para la Educación Universitaria, Ciencia y Tecnología.

Universidad Politécnica Territorial de Paria “Luis Mariano Rivera”.
P.N.F Ingeniería Mecánica.
Carúpano – Estado Sucre.
TRABAJO #3: TRATAMIENTO Y ANÁLISIS DE DATOS
Profesor(a). Participantes:
Katiuska Hernández. Julián Velásquez.
C.I-V- 27.190.164.
Robert Narvaez.
C.I-V- 25.622.942.
Viviana Farías.
C.I-V- 20.375.968.
13-07-21
INTRODUCCION
Se hará referencia sobre el muestreo estadístico, técnicas, niveles y tipos

fundamentales de un muestreo; se describen conceptos básicos que explican lo que esto
se refiere al igual se aprecia cómo y qué tipo de técnicas se pueden utilizar para poner en
practica la realización de una auditoria con la finalidad de obtener una información
determinada para lograr un objetivo específico.
El muestreo estadístico es un procedimiento por el que se ingresan los valores

verdaderos de una población a través de la experiencia obtenida con una muestra
El muestreo como herramienta de la investigación científica arroja resultados que

se pueden utilizar para concluir un determinado estudio X de población, al igual las
técnicas selectivas que se requieren para dicho estudio de acuerdo a lo que se va a
evaluar.
El muestreo permite una reducción considerable de los costos materiales del

estudio, una mayor rapidez en la obtención de la información y el logro de resultados con
máxima calidad.
1. Significado de nivel de confianza.
El nivel de confianza representa el porcentaje de intervalos que incluirían el
parámetro de población si usted tomara muestras de la misma población una y otra vez.
Por lo general, un nivel de confianza de 95% funciona adecuadamente. Esto indica que, si
usted recogió cien muestras y creó cien intervalos de confianza de 95%, cabría esperar
que aproximadamente 95 de los intervalos incluyeran el parámetro de población, tal como
la media de la población, como se muestra en la siguiente figura.
El nivel de confianza es la probabilidad de que el parámetro a estimar se encuentre
en el intervalo de confianza.
El nivel de confianza (p) se designa mediante 1 − α, y se suele tomar en tanto por
ciento. Los niveles de confianza más usuales son: 90%; 95% y 99%.
2. Significado de nivel de significación (percentil).

Los niveles de significación son el complemento al intervalo de confianza de una
distribución y se utilizan para contrastar la hipótesis nula (H0) en una prueba de inferencia
estadística. En otras palabras, los niveles de significación son las probabilidades que
dejamos fuera del intervalo de confianza de una distribución y nos ayudan a determinar si
el estadístico de contraste está en zona de rechazo o no.
El nivel de significación se designa mediante α.
El valor crítico (k) como z α/2.
P(Z>z α/2) = α/2
P [-z α/2 < z < z α/2] = 1 - α
1 - α α/2 z α/2
0.90 0.05 1.645
0.95 0.025 1.96
0.99 0.005 2.575
En una distribución N (μ, σ) el intervalo característico correspondiente a una

probabilidad p = 1 - α es:
(μ - z α/2 · σ, μ + z α/2 · σ)
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes
iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P50 coincide con la mediana.
3. Tipos de datos y variables.

Existen diferentes métodos mediante los cuales se pueden obtener datos
estadísticos. A continuación, te mencionamos los principales:
 Información publicada: Los datos estadísticos pueden obtenerse a través de la
recolección de datos originales. La persona u organización que se encarga de
obtenerlos es la fuente primaria, mientras que la persona que compila la
información es la fuente secundaria.
 Diseño de un experimento: La experimentación se realiza con un control estricto
del tratamiento que se les ofrece a los participantes del estudio.
 Conducción de una encuesta: Este es otro método para obtener datos
estadísticos. Se diseña la encuesta, se recolectan los datos, se editan, se codifican
y se tabulan para su análisis.
 Realizar un estudio observacional: El investigador observa el comportamiento de
los individuos que participan en el estudio, mientras se encuentran en su entorno
natural. Este proceso puede realizarse de formas diferentes para ayudar en el
proceso de toma de decisiones.
Tipos de datos estadísticos:

Los datos categóricos también conocidos como datos cualitativos, representan
características como el género, el idioma, etc. de una persona. También pueden tomar
valores numéricos, por ejemplo: 1 para mujeres y 0 para hombres. Ten en cuenta que
esos números no tienen significado matemático.
Los tipos de datos estadísticos categóricos se clasifican en:

Datos nominales: Otros de los tipos de datos estadísticos son los que tienen valores
nominales que representan unidades discretas y se usan para etiquetar variables que no
tienen un valor cuantitativo. Estos datos no tienen un orden, aunque cambiara el orden de
sus valores, no cambia su significado.
Datos ordinales: Los datos ordinales representan unidades discretas y ordenadas. Por lo

tanto, es casi lo mismo que los datos nominales, excepto que su orden es importante.
Las escalas ordinales generalmente, se usan para medir características no numéricas
como la felicidad, la satisfacción del cliente, etc.
Datos numéricos: estos tipos de datos estadísticos también se conocen como datos

cuantitativos, y se refieren a una medida o recuento. Se clasifican de la siguiente manera:
Datos discretos: Los datos estadísticos son discretos cuando sus valores son distintos y
separados. Es decir, cuando los datos sólo pueden tomar ciertos valores.
Este tipo de datos no se puede medir, pero se pueden contar. Básicamente representan
información que se puede clasificar.
Datos continuos: Los datos continuos representan mediciones y, por lo tanto, sus

valores. no se pueden contar, pero se pueden medir. A su vez, estos se clasifican de la
siguiente manera:
 Datos de intervalo: Los datos de intervalo representan unidades ordenadas que
tienen la misma diferencia. Por lo tanto, hablamos de datos de intervalo cuando
tenemos una variable que contiene valores numéricos que están ordenados y
donde conocemos las diferencias exactas entre los valores. El problema con los
datos de valores de intervalo es que podemos sumar y restar, pero no podemos
multiplicar, dividir o calcular razones. Debido a que no existe un cero verdadero, no
se pueden aplicar muchas estadísticas descriptivas e inferenciales.
 Datos de relación: También son unidades ordenadas que tienen la misma
diferencia. Los datos de relación son los mismos que los valores de intervalo, con
la diferencia de que tienen un cero absoluto.
Una variable estadística es una característica que puede fluctuar y cuya variación
es susceptible a adoptar diferentes valores, los cuales pueden medirse u observarse.
Las variables adquieren valor cuando se relacionan con otras variables, es decir, si
forman parte de una hipótesis o de una teoría. En este caso se las
denomina constructos o construcciones hipotéticas. A partir de este concepto se
puede mencionar que una variable es la que permite relacionarla con algún problema
o fenómeno, el cual vamos a investigar y buscar posibles soluciones.
Mediante este concepto se puede mencionar que las variables tienen una
clasificación:
 Categóricas
 Numéricas
Las variables categóricas se dividen de la siguiente forma:
 Dicotómicas
 Nominales
 Ordinales
Y las variables numéricas se dividen de la siguiente manera:
 Continua
 Discreta
Podemos definir como variable cualitativa, toda aquella variable que, como su
propio nombre indica, expresa una cualidad, característica o modalidad. Se conoce
como atributo o categoría a cada modalidad que se presenta, y la medición de la
misma es la clasificación de dichos atributos.
Variables categóricas:
En las ciencias de la salud es bastante frecuente encontrarse con variables
categóricas, como el sexo, la raza, lugar de procedencia, categoría laboral, etc., son
ejemplos de este tipo de variables con las que nos podemos encontrar en nuestro
diario vivir. Estas son variables sobre las que únicamente es posible obtener una
medida de tipo nominal u ordinal (con muy pocos valores) los valores que presentan
corresponden a categorías discretas. Estas categorías no pueden ser ordenadas y
representan grupos diferentes como ya lo mencionamos.
También se toma en cuenta que una variable es medida utilizando una escala de
medición, la elección de las escalas de medición a utilizarse depende del tipo de
variable en estudio y el manejo estadístico al que será sometido la información es
decir existe una correspondencia directa entre tipo de variable y escala de medición. 1
Las variables categóricas pueden clasificarse en:
Variable Nominal
Es aquella variable cualitativa cuya categoría no sigue ningún orden, se agrupa sin
ninguna jerarquía entre sí.
Ejemplos:
 Lateralidad (zurdo, diestro)
 Estado civil (soltero, casado, divorciado, unión libre)
 Grupo sanguíneo (Grupo A-Grupo B- Grupo AB-Grupo 0)
No admiten puntuaciones numéricas ordenandos significativamente sin embargo a
veces en las computadoras se muestran la categoría de estas variables mediante
ciertos códigos computacionales por ejemplo a la variable género se le asigna los
siguientes códigos: hombre-0, mujer-1.
Variable Ordinal
Son aquellas variables categóricas con orden secuencial o progresión natural
esperable o jerarquía.1
Ejemplos:
 Medalla deportiva (oro, plata, bronce)
 Nivel de clase educativa (último año, primer año, etc.)
Variable Dicotómica
Es aquella variable categórica, la cual puede adoptar solamente dos valores. 1
Ejemplos:
 Sexo (masculino, femenino)
 Posee obesidad (sí, no)
Variables Numérica
También llamadas variables cuantitativas. Describen una característica en términos
de un valor numérico o cantidad.
Variables Continuas
Son aquellas características que son medidas dentro de un rango continuo infinito
de valores numéricos y se registran con números reales. Pueden presentar cualquier
valor dentro de cierto intervalo.1
Ejemplos:
 Estatura (1.76543 m)
 Peso (55.6625 kg)
 Tamaño de lesión de leishmaniasis (6.0458 mm)
 Ingreso familiar ($ 455.651,86)
 Dosis efectiva 50 (ED50=12.5 ug/mL)
Variables Discretas
Son también llamadas discontinuas, y están asociadas a conteos o enumeraciones,
razón por la cual, solo permiten ser registradas con números enteros (0,1,2,3, etc.) 1
Ejemplos:
 Edad (años cumplidos) (18,25,44)
 Número de hijos en una familia (0,1,2,3, etc.)
 Número de células en una muestra de sangre (27,70,85)
 Número de pétalos en una flor (4,5,6)
 Número de familias residentes en una manzana (20,25,45)
 Número de insectos atrapados en una red (0,1,2,5,10)
Tipos de Variables
 Variable Independiente, Dependiente e Interviniente
 Variable Controlada y Aleatoria
 Variable Hipotética y Observable
 Variables Atributivas y Activas
 Variable Estímulo y Respuesta
 Variable Cualitativa y Cuantitativa
Según el nivel de medida

Artículo principal: Nivel de medida
Según el nivel de medición o también según el criterio metodológico, pueden ser:
Variables cualitativas
Son el tipo de variables que como su nombre lo indica expresan distintas
cualidades, características o modalidad. Cada modalidad que se presenta se
denomina atributo o categoría, y la medición consiste en una clasificación de dichos
atributos. Las variables cualitativas pueden ser dicotómicas cuando solo pueden
tomar dos valores posibles, como sí y no, hombre y mujer o ser politómicas cuando
pueden adquirir tres o más valores. Dentro de ellas podemos distinguir:
 Variable cualitativa ordinal o variable cuasicuantitativa: La variable puede

tomar distintos valores ordenados siguiendo una escala establecida, aunque no es
necesario que el intervalo entre mediciones sea uniforme, por ejemplo: leve,
moderado, fuerte.
 Variable cualitativa nominal: En esta variable los valores no pueden ser
sometidos a un criterio de orden, como por ejemplo los colores o el lugar de
registro
Variables cuantitativas
Son las variables que toman como argumento cantidades numéricas, son variables
matemáticas. Las variables cuantitativas además pueden ser:
 Variable discreta: Es la variable que presenta separaciones o interrupciones en la
escala de valores que puede tomar. Estas separaciones o interrupciones indican la
ausencia de valores entre los distintos valores específicos que la variable pueda
asumir. Ejemplo: El número de hijos (1, 2, 3, 4, 5).
 Variable continua: Es la variable que puede adquirir cualquier valor dentro de un
intervalo especificado de valores. Por ejemplo, la masa (2,3 kg, 2,4 kg, 2,5 kg) o la
altura (1,64 m, 1,65 m, 1,66 m), o el salario. Solamente se está limitado por la
precisión del aparato medidor, en teoría permiten que exista indefinidos valores
entre dos variables.
Según la influencia
Según la influencia que le asignemos a unas variables sobre otras, estas podrán
ser:
Variables independientes
Una variable independiente es aquella cuyo valor no depende de otra variable. Es
aquella característica o propiedad que se supone es la causa del fenómeno estudiado.
En investigación experimental se llama así a la variable que el investigador manipula.
La variable independiente es en la que el investigador escoge para establecer
agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un
tipo especial son las variables de control, que modifican al resto de las variables
independientes y que de no tenerse en cuenta adecuadamente pueden alterar los
resultados por medio de un sesgo.
Variables dependientes
Una variable dependiente es aquella cuyos valores dependen de los que tomen
otra variable. La variable dependiente es una función que se suele representar por la
y. La variable dependiente se representa en el eje ordenadas. Son las variables de
respuesta que se observan en el estudio, y que podrían estar influidas por los valores
de las variables independientes. Hayman (1974: 69) la define como propiedad o
característica que se trata de cambiar mediante la manipulación de la variable
independiente. La variable dependiente es el factor que es observado y medido para
determinar el efecto de la variable independiente.
4. Tipos de distribución de datos.

Conoce los diferentes tipos de distribución de datos: uniforme discreta, Bernoulli, binomio,
binomio negativo, Poisson, geométrica, uniforme continua, normal (curva de campana),
exponencial, gamma y beta.
 DISTRIBUCIÓN DE BERNOULLI
Consiste en realizar un experimento aleatorio una sola vez y observar si cierto
suceso ocurre o no, siendo p la probabilidad de que esto sea así (éxito) y q=1-p el que no
lo sea (fracaso). En realidad, no se trata más que de una que únicamente puede tomar
dos modalidades, es por ello que el hecho de llamar éxito o fracaso a los posibles
resultados de las pruebas del resultado. Podríamos por tanto definir este experimento
mediante una v.a. discreta X que toma los valores X=0 si el suceso no ocurre, y X=1 en
caso contrario.
 DISTRIBUCIÓN BINOMIAL
La distribución binomial es una distribución de probabilidad discreta que mide el
número de éxitos en una secuencia de n ensayos de BERNOULLI independientes entre
sí, con una probabilidad fija p de ocurrencia del éxito entre los ensayos. Existen muchas
situaciones en las que se presenta una experiencia binomial. Cada uno de los
experimentos es independiente de los restantes (la probabilidad del resultado de un
experimento no depende del resultado del resto). El resultado de cada experimento ha de
admitir sólo dos categorías (a las que se denomina éxito y fracaso). Las probabilidades de
ambas posibilidades han de ser constantes en todos los experimentos (se denotan como
p y q o p y 1-p).• Se designa por X a la variable que mide el número de éxitos que se han
producido en los n experimentos.• Cuando se dan estas circunstancias, se dice que la
variable X sigue una distribución de probabilidad binomial, y se denota B(n,p)
 DISTRIBUCION POISSON
Se trata de un modelo discreto, pero en el que el conjunto de valores con
probabilidad no nula no es finito, sino numerable. Esta distribución suele utilizarse para
contajes del tipo número de individuos por unidad de tiempo, de espacio, etc. Propiedades
del modelo de Poisson 1) Esperanza: E(X) = λ.• 2) Varianza: V(X) = λ. En esta distribución
la esperanza y la varianza coinciden.
 DISTRIBUCIÓN NORMAL
En estadística y probabilidad se llama distribución normal, distribución de Gauss o
distribución gaussiana, a una de las distribuciones de probabilidad de variable continua
que con más frecuencia aparece aproximada en fenómenos reales. La gráfica de su
función de densidad tiene una forma acampanada y es simétrica respecto de un
determinado parámetro. Esta curva se conoce como campana de Gauss y es el gráfico de
una función gaussiana.
 DISTRIBUCIÓN GAMMA
En estadística la distribución gamma es una distribución de probabilidad continua con dos
parámetros k y λ cuya función de densidad para valores x > 0 es Aquí es el número y Γ es la
función gamma. ¡Para valores la aquella es Γ(k) = (k − 1)! (el factorial de k − 1). En este caso - por
ejemplo, para describir un proceso de Poisson - se llaman la distribución distribución Erlang con
un parámetro θ = 1 / λ. El valor esperado y la varianza de una variable aleatoria X de distribución
gamma son E*X+ = k / λ = kθ V*X+ = k / λ2 = kθ2.
 DISTRIBUCIÓN UNIFORME DISCRETA (A,B)
La distribución uniforme discreta describe el comportamiento de una variable

discreta que puede tomar n valores distintos con la misma probabilidad cada uno de ellos.
Un caso particular de esta distribución, que es la que se incluye en este módulo de Epidat
4, ocurre cuando los valores son enteros consecutivos. Esta distribución asigna igual
probabilidad a todos los valores enteros entre el límite inferior y el límite superior que
definen el recorrido de la variable. Si la variable puede tomar valores entre a y b, debe
ocurrir que b sea mayor que a, y la variable toma los valores enteros empezando por a,
a+1, a+2, etc. hasta el valor máximo b. Por ejemplo, cuando se observa el número
obtenido tras el lanzamiento de un dado perfecto, los valores posibles siguen una
distribución uniforme discreta en {1, 2, 3, 4, 5, 6}, y la probabilidad de cada cara es 1/6.
Valores: k: a, a+1, a+2, ..., b, números enteros
Parámetros: a: mínimo, a entero b: máximo, b entero con a < b
 DISTRIBUCIÓN GEOMÉTRICA (P)

Supóngase que se efectúa repetidamente un experimento o prueba, que las
repeticiones son independientes y que se está interesado en la ocurrencia o no de un
suceso al que se refiere como “éxito”, siendo la probabilidad de este suceso p. La
distribución geométrica permite calcular la probabilidad de que tenga que realizarse un
número k de repeticiones antes de obtener un éxito por primera vez; esta probabilidad
decrece a medida que aumenta k con lo que la función de masa de probabilidad es
siempre decreciente. Así pues, se diferencia de la distribución binomial en que el número
de repeticiones no está predeterminado, sino que es la variable aleatoria que se mide y,
por otra parte, el conjunto de valores posibles de la variable es ilimitado.
Para ilustrar el empleo de esta distribución, se supone que cierto medicamento

opera exitosamente ante la enfermedad para la cual fue concebido en el 80% de los
casos a los que se aplica; la variable aleatoria “intentos fallidos en la aplicación del
medicamento antes del primer éxito” sigue una distribución geométrica de parámetro p =
0,8. Otro ejemplo de variable geométrica es el número de hijos hasta el nacimiento de la
primera niña.
La distribución geométrica se utiliza en la distribución de tiempos de espera, de

manera que si los ensayos se realizan a intervalos regulares de tiempo, esta variable
aleatoria proporciona el tiempo transcurrido hasta el primer éxito.
Esta distribución presenta la propiedad denominada “falta de memoria”, que implica

que la probabilidad de tener que esperar un tiempo t no depende del tiempo que ya haya
transcurrido.
Valores: k: 0, 1, 2, ...
Parámetros: p: probabilidad de éxito, 0 < p < 1
 DISTRIBUCIÓN BINOMIAL NEGATIVA (R, P)
Una generalización obvia de la distribución geométrica aparece si se supone que

un experimento se continúa hasta que un determinado suceso, de probabilidad p, ocurre
por r- ésima vez. La variable aleatoria que proporciona la probabilidad de que se
produzcan k fracasos antes de obtener el r-ésimo éxito sigue una distribución binomial
negativa de parámetros r y p, BN(r,p). La distribución geométrica corresponde al caso
particular en que r= 1. Un ejemplo es el número de lanzamientos fallidos de un dado antes
de obtener un 6 en tres ocasiones, que sigue una BN (3,1/6).
En el caso de que los sucesos ocurran a intervalos regulares de tiempo, esta

variable proporciona el tiempo total hasta que ocurren r éxitos, por lo que también se
denomina “distribución binomial de tiempo de espera”.
La distribución binomial negativa aparece en un estudio de Pierre Rémond de

Montmort (1678-1719) sobre los juegos de azar en 1714, pero años antes ya había sido
descrita por Blaise Pascal (1623-1662). Más adelante, esta distribución fue propuesta
como una alternativa a la distribución de Poisson para modelar el número de ocurrencias
de un suceso cuando los datos presentan lo que se conoce como variación extra-Poisson
o sobre dispersión.
En estas situaciones, la varianza es mayor que la media, por lo que se incumple la

propiedad que caracteriza a una distribución de Poisson, según la cual la media es igual a
la varianza. La primera aplicación en bioestadística la realizó Student (William Sealy
Gosset (1876-1937)) a principios de siglo cuando propuso esta distribución para modelar
el número de glóbulos rojos en una gota de sangre. En este caso, la variabilidad extra se
debe al hecho de que esas células no están uniformemente distribuidas en la gota, es
decir, la tasa de intensidad no es homogénea.
La distribución binomial negativa es más adecuada que la de Poisson para

modelar, por ejemplo, el número de accidentes laborales ocurridos en un determinado
lapso. La distribución de Poisson asume que todos los individuos tienen la misma
probabilidad de sufrir un accidente y que ésta permanece constante durante el período de
estudio; sin embargo, es más plausible la hipótesis de que los individuos tienen
probabilidades constantes en el tiempo, pero que varían de unos sujetos a otros; esto es
lo que se conoce en la literatura como la propensión a los accidentes (“accident
proneness”) [9][10]. Esta hipótesis se traduce en una distribución de Poisson mixta, o de
efectos aleatorios, en la que se supone que las probabilidades varían entre individuos de
acuerdo a una distribución gamma y esto resulta en una distribución binomial negativa
para el número de accidentes. El número máximo de éxitos permitidos en Epidat 4, para
realizar cálculos de la distribución binomial negativa, es 1.000.
Valores: k: 0, 1, 2, ...
Parámetros: 1 enteror: número de éxitos, r p: probabilidad de éxito, 0 < p < 1
 DISTRIBUCIÓN UNIFORME CONTINUA (A, B)
La distribución uniforme es útil para describir una variable aleatoria con

probabilidad constante sobre el intervalo (a, b) en el que está definida y se denota por
U(a, b). También es conocida con el nombre de distribución rectangular por el aspecto de
su función de densidad. Una peculiaridad importante de esta distribución es que la
probabilidad de un suceso depende exclusivamente de la amplitud del intervalo
considerado y no de su posición en el campo de variación de la variable. Cualquiera que
sea la distribución F de cierta variable X, la variable transformada Y = F(X) sigue una
distribución uniforme en el intervalo (0,1). Esta propiedad es fundamental por ser la base
para la generación de números aleatorios de cualquier distribución en las técnicas de
simulación, y recibe el nombre de método de inversión.
Campo de variación: a < x < b
Parámetros: a: mínimo, -∞ < a < ∞
b: máximo, -∞ < b < ∞ con a < b
 DISTRIBUCIÓN BETA (P, Q)
La distribución beta es adecuada para variables aleatorias continuas que toman

valores en el intervalo (0,1), lo que la hace muy apropiada para modelar proporciones. En
la inferencia bayesiana, por ejemplo, es muy utilizada como distribución a priori cuando
las observaciones tienen una distribución binomial.
Uno de los principales recursos de esta distribución es el ajuste a una gran

variedad de distribuciones empíricas, pues adopta formas muy diversas dependiendo de
cuáles sean los valores de los parámetros de forma p y q, mediante los que viene definida
la distribución, denotada por Beta(p,q).
Un caso particular de la distribución beta es la distribución uniforme en (0,1), que
se corresponde con una beta de parámetros p = 1 y q = 1.
La limitación que impone Epidat 4 a los valores que pueden tomar sus parámetros
es que no deben ser mayores que 100 para poder realizar los cálculos.
Campo de variación: 0 < x < 1
Parámetros:
p: forma, p > 0
q: forma, q > 0
 DISTRIBUCIÓN EXPONENCIAL
(La distribución exponencial es un caso particular de la distribución gamma y el

equivalente continuo de la distribución geométrica discreta. Esta ley de distribución
describe procesos en los que interesa saber el tiempo hasta que ocurre determinado
evento; en particular, se utiliza para modelar tiempos de supervivencia. Un ejemplo es el
tiempo que tarda una partícula radiactiva en desintegrarse. El conocimiento de la ley que
sigue este evento se utiliza, por ejemplo, para la datación de fósiles o cualquier materia
orgánica mediante la técnica del carbono 14.
Una característica importante de esta distribución es la propiedad conocida como

“falta de memoria”. Esto significa, por ejemplo, que la probabilidad de que un individuo de
edad t sobreviva x años más, hasta la edad x+t, es la misma que tiene un recién nacido
de sobrevivir hasta la edad x. Dicho de manera más general, el tiempo transcurrido desde
cualquier instante dado t0 hasta que ocurre el evento, no depende de lo que haya ocurrido
antes del instante t0.
Se cumple que variable aleatoria que tome valores positivos y que verifique la
propiedad de “falta de memoria” sigue una distribución exponencial [8].
Esta distribución se puede caracterizar como la distribución del tiempo entre

sucesos consecutivos generados por un proceso de Poisson; por ejemplo, el tiempo que
transcurre ,entre dos heridas graves sufridas por una persona. La media de la
distribución de Poisson, que representa la tasa de ocurrencia del evento por unidad de
tiempo, es el parámetro de la distribución exponencial, y su inversa es el valor medio de la
distribución.
El uso de la distribución exponencial ha sido limitado en bioestadística, debido a

que la propiedad de falta de memoria la hace demasiado restrictiva para la mayoría de los
problemas.
Epidat 4 permite realizar cálculos de esta distribución siempre y cuando el parámetro

menor o igual que 100.
Campo de variación: 0 < x < 
Parámetros: : tasa,  > 0
5. ¿Cómo saber qué tipo de distribución siguen los datos (se ajustan mas)?
Las gráficas de probabilidad son una excelente manera de identificar visualmente la
distribución que siguen los datos. Si los puntos de los datos siguen la línea recta, la
distribución se ajusta.
6. Determine en qué consiste, cómo se realiza y cuándo debe aplicarse el:

a) Muestreo al azar estratificado.
Es una técnica de muestreo que se utiliza cuando en la población se pueden distinguir
subgrupos o subpoblaciones claramente identificables. Mediante este método de
muestreo, la selección de los elementos que van a formar parte de la muestra se
realiza por separado dentro de cada estrato, sin dejar ningún estrato sin muestrear. En
la práctica esta técnica presenta dos ventajas importantes:
 Puede facilitar la implementación física del muestreo (organización de la campaña
de toma de datos, lugares a visitar, etc.)
 Permite aplicar el esfuerzo de muestreo de forma “inteligente”, tomando muestras
de mayor tamaño en aquellos estratos que así lo requieran, y menos en donde no
haga falta. Por poner un ejemplo extremo, si todos los sujetos de un estrato son
clónicos, posiblemente bastaría con medir a uno de ellos para tener toda la
información necesaria. Si los sujetos de un estrato son extremadamente
heterogéneos, habrá que tomar una muestra grande para poder captar bien el
efecto de esa variabilidad.
El procedimiento utilizado para llevar a cabo el muestreo estratificado tiene varias

etapas. A continuación, describimos las más relevantes:
A. Definir la población (total) objetivo
B. Elegir las variables de estratificación y cuántos estratos existirán.
C. Identifica cada elemento de la población y asigna un identificador único. Cada
elemento de la población debe pertenecer a un único estrato.
D. Determina el tamaño de cada estrato (se explica en la siguiente sección)
E. Se seleccionan al azar los elementos de cada estrato hasta obtener el número
específico definido para cada estrato.
El muestreo estratificado se suele utilizar en las siguientes situaciones:

 Se suele utilizar cuando se busca destacar o investigar las particularidades de
un grupo específico de la población.
 También se utiliza cuando se quiere estudiar las relaciones entre dos o más
subgrupos.
 Se requiere más precisión estadística para las estimaciones de subgrupos.
b) Muestreo al azar sistemático.

El muestreo sistemático es un tipo de muestreo probabilístico que se basa en enlistar
a toda una población, elegir de forma aleatoria al primer individuo para la muestra y
luego, a partir de un intervalo definido por el investigador, seleccionar al resto de los
individuos que conformarán la muestra.
Por ejemplo, supongamos que necesitamos extraer una muestra de 10 personas a

partir de una población total de 100 y el primer individuo seleccionado para la muestra
es el número 3. A partir de este, mediante un intervalo de 4 decidido por el
investigador, se seleccionarán los próximos individuos hasta completar la muestra, de
manera que serán los números 7, 11, 15, etc.
Se utiliza a menudo cuando es imposible o poco práctico utilizar un muestreo aleatorio

simple. A diferencia de un muestreo aleatorio simple: Si el proceso de selección es
manual, el muestreo sistemático es más fácil, más simple, menos tiempo, y más
económico.
c) Combinación estratificada y sistemático

Este tipo de muestreo se caracteriza por la combinación de elementos de los otros
tipos de muestreo: muestreo aleatorio simple, aleatorio estratificado y sistemático. Es
un intento de reducir la arbitrariedad en la toma de muestras.
d) Muestreo aleatorio por conglomerado.

El muestreo por conglomerados nos ayuda cuando es imposible o poco práctico crear
un marco de muestreo de una población objetivo debido a que está muy dispersa
geográficamente y el costo de la recopilación de datos es relativamente alto.
El muestreo por conglomerados, también conocido como muestreo por racimos, es un

procedimiento de muestreo probabilístico en que los elementos de la población son
seleccionados al azar en forma natural por agrupaciones (clusters). Los elementos del
muestreo se seleccionan de la población de manera individual, uno a la vez.
Las unidades de muestreo o grupos pueden ser espaciados, tal como ocurre
naturalmente en las unidades geográficas o físicas (por ejemplo: estados,
delegaciones o distritos); en base a una organización como escuelas, grado escolar; o
servicio telefónico tales como códigos de área o el cambio de las claves lada de los
números de teléfono.
La heterogeneidad del grupo es fundamental para un buen diseño del muestreo por
conglomerados. Por otra parte, el elemento dentro de cada grupo debe ser tan
heterogéneos como la población objetivo
Pasos para seleccionar el conglomerado:
A. Definir la población objetivo.
B. Determinar el tamaño de la muestra deseada.
C. Identificar un marco de muestreo existente o desarrollar un nuevo marco de

muestreo de grupos de la población objetivo.
D. Evaluar el marco de muestreo para la falta de cobertura, cobertura excesiva,

múltiple cobertura, y la agrupación, y hacer los ajustes cuando sea necesario.
Idealmente, los grupos serían tan heterogéneos como la población, mutuamente
excluyentes, y colectivamente exhaustivos. La duplicación de elementos de la
muestra puede aparecer si elementos de la población pertenecen a más de un
grupo. La omisión dará lugar a un sesgo de cobertura.
E. Determinar el número de grupos que se seleccione. Esto se puede hacer

dividiendo el tamaño de la muestra por el número promedio estimado de elementos
de la población en cada grupo. En la medida en que la homogeneidad y la
heterogeneidad de los grupos sean diferentes a la de la población, el número del
grupo aumenta e incrementa la precisión. Por otra parte, si las diferencias
aumentan, la precisión disminuye.
F. Seleccionar al azar el número previsto de las agrupaciones.
7. Cálculo de las medidas de tendencia central y de dispersión para cada uno de los
diferentes tipos de distribución de datos. A. Media, B. Mediana, C. Moda, D. Media
geométrica, E. Media armónica, F. Desviación media, G. Desviación estándar, H.
Varianza.
Las medidas de tendencia central son también frecuentemente usadas para
comparar un grupo de datos con otro, por ejemplo: el promedio de ventas obtenido por
un grupo de vendedores de una zona comparado con el promedio de ventas otro
grupo de vendedores de otra zona, el promedio de reclamos de clientes de una
sucursal, comparado con el promedio de reclamos de otra sucursal.
Otras características generales de las medidas de tendencia central son las

siguientes:
 Permiten apreciar qué tanto se parecen lo grupos entre sí.

 Son valores que se calculan para un grupo de datos y que se utiliza para
describirlos de alguna manera.
 Normalmente se desea que el valor sea representativo de todos los valores
incluidos en el grupo.
 Es el valor más representativo o típico de un grupo de datos, no es el valor más
pequeño o el más grande, sino un valor que está en algún punto intermedio del
grupo, más exactamente, se acerca a estar al centro de todos los valores, por
ello se les llama medidas de tendencia central.
 Se utilizan como mecanismo para resumir una característica de un grupo de
datos en particular.
 También para comparar un grupo de datos contra otro.
A. Media
La media es un concepto estadístico básico que representa en un valor las
características que presenta una variable de un conjunto de datos, y sólo
puede usarse con variables cuantitativas. La media puede considerarse un
concepto base para la comprensión de variable aleatoria y sus
distribuciones, ya que la distribución se caracteriza principalmente por las
medidas de tendencia central y de dispersión, siendo frecuentemente la
media uno de los parámetros de las distribuciones. (Estrella 2016). La media
aritmética, o promedio aritmético, es la suma de los valores del grupo de
datos dividida entre la cantidad de valores. Su fórmula se puede describir de
la siguiente manera:
B. Mediana
Es el valor del elemento central del conjunto. Para encontrar la mediana,
primero arreglar los valores del conjunto de acuerdo a su magnitud; es decir,
arreglar los valores del más pequeño al más grande o del más grande al
más pequeño y después localizar el valor central, es decir, el número de
valores sobre la mediana es el mismo que el número de valores debajo de la
mediana. Si el número de valores en un conjunto de datos no agrupados es
par, no hay mediana verdadera.
C. Moda:
También llamada modo o promedio típico de un conjunto de valores; la moda
es el valor el cual ocurre más frecuentemente en el conjunto. Si un valor es
seleccionado al azar del conjunto dado, un valor modal es el valor más
probable a ser seleccionado. Así, la moda es generalmente considerada
como el valor más típico en una serie de datos la cual es llamada, por esa
razón, UNIMODAL.
Un conjunto pequeño de datos en el que no se repiten valores medidos

carece de moda. Cuando dos valores no adyacentes son casi iguales en
cuanto a frecuencias máximas asociadas con ellos, la distribución se llama
BIMODAL, aquéllas con varias modas se llaman multimodales.
Ejemplo:
En el presente ejemplo existe una moda Unimodal la cual es 10, ya que

dentro de las variables el número que se repite es el 10.
R// La Moda de los minutos de atraso al examen de matemáticas de los
estudiantes de primer nivel de economía de la Universidad Técnica de
Machala es 10.
D. Media geométrica
La media geométrica G, de un conjunto de valores es la raíz n-ésima del
producto de los valores de dicho conjunto: Si hay dos valores, la raíz
cuadrada del producto de estos dos; si son tres, es la raíz cúbica del
producto de los tres valores. La fórmula general es:
E. Media armónica
En otras palabras, la media armónica es una medida estadística recíproca a
la media aritmética, que es la suma de un conjunto de valores entre el
número de observaciones.
La fórmula de la media armónica (H) de un conjunto de números x 1, x2, x3,…,
xn, es la siguiente:
Cabe destacar que N es el número de elementos sobre los cuales se calcula

la media. Este tipo de media suele utilizarse, principalmente, en velocidades,
tiempos, o en el área de la electrónica. Sin embargo, su uso no está muy
extendido en otras disciplinas.
Debemos tener en cuenta que esta presenta ciertas desventajas, como que
no puede calcularse si una de las observaciones es igual a cero. Es decir,
ninguno de los elementos puede ser nulo. Asimismo, resulta interesante
señalar que tiene menos sensibilidad o presenta un menor impacto ante
números altos, sucediendo lo opuesto con valores pequeños. Esto es porque
el inverso de 100, por ejemplo, es 0,001, pero el de 5 es 0,2. Así, cuanto
más grande sea una observación, menos influirá en el resultado, y lo
contrario sucederá si la observación se acerca a cero.
F. Desviación media
La desviación respecto a la media es la diferencia entre cada valor de la
variable estadística y la media aritmética.
Di = x - x
La desviación media es la media aritmética de los valores absolutos de las
desviaciones respecto a la media.
La desviación media se representa por Explicaciones y ejemplos de
desviación media – 1
G. Desviación estándar
La desviación típica o desviación estándar (denotada con el símbolo σ o s,
dependiendo de la procedencia del conjunto de datos) es una medida de
dispersión para variables de razón (variables cuantitativas o cantidades
racionales) y de intervalo. Se define como la raíz cuadrada de la varianza de
la variable.
H. Varianza
Encontramos varianza, que es como la mayor parte de los textos científicos
en castellano se refieren a la media aritmética de los cuadrados de las
desviaciones de cada valor respecto de la media aritmética de los datos (por
lo que a veces también se denomina desviación cuadrática media). La
desviación estándar es la raíz cuadrada de la varianza. En algunos textos en
castellano se ve variancia en vez de varianza, pero esta grafía se usa muy
poco, pese a ser la recomendada por la Real Academia.
La varianza es la media aritmética de los cuadrados de las desviaciones
respecto a la media aritmética, es decir, es el promedio de las desviaciones
de la media elevadas al cuadrado.
8. Cálculo de cuartiles, deciles y percentiles para los datos.
A. Cuartiles
Los Cuartiles son los tres valores de la variable que dividen a un conjunto de datos
ordenados en cuatro partes iguales (de 25% cada parte). De manera que para resolver
un problema sobre cuartiles solamente tenemos que hallar Q1; Q2 y Q3
Pasos a seguir, para datos no agrupdos:

1) Ordenar los datos en forma ascendente.
2) Calcular Q2 es decir hallar la Mediana:
* Si la cantidad de datos es impar, el valor que está en el centro será la Mediana, es
decir Q2.
* Si cantidad de datos es par, se suman los 2 datos centrales y se divide entre 2.
3) Calcular Q1 y Q3.
Para datos agrupados:
Donde:
Qk: Cuartil
Li: Límite inferior del intervalo seleccionado.
k: Debe ser 1; 2 ó 3
n: Número total de datos
f: frecuencia absoluta del intervalo seleccionado.
Fi-1: Frecuencia absoluta Acumulada (pero anterior a la clase cuartil)
a: Amplitud del intervalo (Restar los 2 valores: L sup - L inf)
B. Deciles
Los Deciles son los nueve valores de la variable que dividen a un conjunto de datos
ordenados en 10 partes iguales (de 10% cada parte). De manera que para resolver un
problema sobre deciles solamente tenemos que hallar D1; D2 ; D3 ; D4 ; ... D9
Para hallar los Deciles, se sigue igual procedimiento que los cuartiles.
Para hallar los Deciles (D) para datos agrupados se aplica la siguiente fórmula:
Donde:
Dk: Decil
k: Debe ser 1; 2 ; 3 ; 4; ... ; 9
Fi-1: Frecuencia absoluta Acumulada (pero anterior a la clase decil)
C. Percentiles
Los Percentiles son los 99 valores de la variable que dividen a un conjunto de datos
ordenados en 100 partes iguales (de 1% cada parte). De manera que para resolver un
problema sobre percentiles solamente tenemos que hallar P1; P2; P3 ; P4; ... ; P99
NOTA: Para hallar los Percentiles se sigue el mismo procedimiento que los Cuartiles.
Para hallar los Percentiles (P) para datos agrupados se aplica la siguiente fórmula:
Donde:
Pk: Percentil
k: Debe ser 1; 2 ; 3 ; 4; 5 ; ... ; 99
Fi-1: Frecuencia absoluta Acumulada (pero anterior a la Clase Percentil)
9. Gráficas de distribución de frecuencia.

La representación gráfica más usada para datos agrupados es el histograma de
frecuencias absolutas o relativas. Un histograma es un conjunto de rectángulos
adyacentes, cada uno de los cuales representa un intervalo de clase. La base de cada
rectángulo es proporcional a la amplitud del intervalo
10. Grafica del polígono de frecuencia.

Polígono de frecuencia es el nombre que recibe una clase de gráfico que se crea a
partir de un histograma de frecuencia. Estos histogramas emplean columnas verticales
para reflejar frecuencias: el polígono de frecuencia es realizado uniendo los puntos de
mayor altura de estas columnas. Es decir, por tanto, podríamos establecer que un
polígono de frecuencia es aquel que se forma a partir de la unión de los distintos
puntos medios de las cimas de las columnas que configuran lo que es un histograma
de frecuencia.
Este se caracteriza porque utiliza siempre lo que son columnas de tipo vertical y
porque nunca debe haber espacios entre lo que son unas y otras.
Se conoce como polígonos de frecuencia para datos agrupados a aquellos que se
desarrollan mediante la marca de clase que tiene coincidencia con el punto medio de
las distintas columnas del histograma. En el momento de la representación de todas
las frecuencias que forman parte de una tabla de datos agrupados, se genera el
histograma de frecuencias acumuladas que posibilita la diagramación del polígono
correspondiente.
Un polígono de frecuencia, por ejemplo, permite reflejar las temperaturas máximas
promedio de una ciudad en un determinado periodo temporal. En el eje X (horizontal),
deben indicarse los meses del año (enero, febrero, marzo, abril, etc.). En el eje Y
(vertical), en cambio, se registran las temperaturas más altas promedio de cada mes
(28º, 26º, 22º…). El polígono de frecuencia se creará al unir, mediante un segmento,
las diversas temperaturas más elevadas promedio.
Los polígonos de frecuencia se suelen usar cuando se pretende retratar varias
distribuciones distintas o la clasificación cruzada de una variable cuantitativa continua
con una cualitativa o cuantitativa discreta en el mismo dibujo.
CONCLUSION
El muestreo Estadístico resulta beneficioso para implementarlo en la realización de

un estudio, debido a que mediante este se pueden obtener probabilidades bajas o altas a
través de determinados beneficios que estas técnicas ofrecen. En los diferentes tipos de
muestreo existen no probabilística en los cuales se deben establecer diferencia en el
momento de realizar nuestras investigaciones por tanto que en el no probabilística no toda
la población forma parte de la muestra y en el probabilística todos los individuos tienen
probabilidad positiva de formar parte de la muestra.
El muestreo es sencillamente el procedimiento que se emplea a extraer una

pequilla parte de una población dentro de un universo a esta se le llama espacio muestral
dentro de un universo.
Es importante resaltar que el primer procedimiento al realizar una auditoría, es

iniciar las investigaciones de manera tal que estas arrojen conclusiones provenientes de
determinados estudios como puede ser el estadístico a través de una muestra
probabilística.
REFERENCIAS BIBLIOGFICAS
 https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/basics/what-is-a-confidence-level/
 https://www.superprof.es/diccionario/matematicas/estadistica/nivel-
confianza.html#:~:text=El%20nivel%20de%20confianza%20es,tomar%20en
%20tanto%20por%20ciento.
 «Variable cuantitativa - ¿Qué es?, características, ejemplos y más». Enciclopedia

Económica. 4 de enero de 2019.
 Arnal et al. (1992). «3 "Proceso general de investigación"». Investigación educativa.

Barcelona: Labor. p. 72.
 https://epamatematicas.blogspot.com/2017/08/cuartiles-deciles-y-percentiles.html
 https://sites.google.com/site/estadisticalfrecuencia/e/fgdfgdf

TRABAJO Estadistica #3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TRABAJO Estadistica #3

Cargado por

Copyright:

Formatos disponibles

República Bolivariana De Venezuela.

Ministerio del Poder Popular Para la Educación Universitaria, Ciencia y Tecnología.

TRABAJO #3: TRATAMIENTO Y ANÁLISIS DE DATOS

Se hará referencia sobre el muestreo estadístico, técnicas, niveles y tipos

El muestreo estadístico es un procedimiento por el que se ingresan los valores

El muestreo como herramienta de la investigación científica arroja resultados que

El muestreo permite una reducción considerable de los costos materiales del

2. Significado de nivel de significación (percentil).

0.90 0.05 1.645

0.95 0.025 1.96

0.99 0.005 2.575

En una distribución N (μ, σ) el intervalo característico correspondiente a una

3. Tipos de datos y variables.

Tipos de datos estadísticos:

Datos ordinales: Los datos ordinales representan unidades discretas y ordenadas. Por lo

Datos numéricos: estos tipos de datos estadísticos también se conocen como datos

Datos continuos: Los datos continuos representan mediciones y, por lo tanto, sus

Según el nivel de medida

 Variable cualitativa ordinal o variable cuasicuantitativa: La variable puede

4. Tipos de distribución de datos.

 DISTRIBUCIÓN UNIFORME DISCRETA (A,B)

La distribución uniforme discreta describe el comportamiento de una variable

Valores: k: a, a+1, a+2, ..., b, números enteros

Parámetros: a: mínimo, a entero b: máximo, b entero con a < b

 DISTRIBUCIÓN GEOMÉTRICA (P)

Para ilustrar el empleo de esta distribución, se supone que cierto medicamento

La distribución geométrica se utiliza en la distribución de tiempos de espera, de

Esta distribución presenta la propiedad denominada “falta de memoria”, que implica

Parámetros: p: probabilidad de éxito, 0 < p < 1

 DISTRIBUCIÓN BINOMIAL NEGATIVA (R, P)

Una generalización obvia de la distribución geométrica aparece si se supone que

En el caso de que los sucesos ocurran a intervalos regulares de tiempo, esta

La distribución binomial negativa aparece en un estudio de Pierre Rémond de

En estas situaciones, la varianza es mayor que la media, por lo que se incumple la

La distribución binomial negativa es más adecuada que la de Poisson para

Parámetros: 1 enteror: número de éxitos, r p: probabilidad de éxito, 0 < p < 1

 DISTRIBUCIÓN UNIFORME CONTINUA (A, B)

La distribución uniforme es útil para describir una variable aleatoria con

Campo de variación: a < x < b

Parámetros: a: mínimo, -∞ < a < ∞

b: máximo, -∞ < b < ∞ con a < b

 DISTRIBUCIÓN BETA (P, Q)

La distribución beta es adecuada para variables aleatorias continuas que toman

Uno de los principales recursos de esta distribución es el ajuste a una gran

Campo de variación: 0 < x < 1

(La distribución exponencial es un caso particular de la distribución gamma y el

Una característica importante de esta distribución es la propiedad conocida como

Esta distribución se puede caracterizar como la distribución del tiempo entre

El uso de la distribución exponencial ha sido limitado en bioestadística, debido a

Epidat 4 permite realizar cálculos de esta distribución siempre y cuando el parámetro

Campo de variación: 0 < x < 

Parámetros: : tasa,  > 0

6. Determine en qué consiste, cómo se realiza y cuándo debe aplicarse el:

El procedimiento utilizado para llevar a cabo el muestreo estratificado tiene varias

El muestreo estratificado se suele utilizar en las siguientes situaciones:

b) Muestreo al azar sistemático.

Por ejemplo, supongamos que necesitamos extraer una muestra de 10 personas a

Se utiliza a menudo cuando es imposible o poco práctico utilizar un muestreo aleatorio

c) Combinación estratificada y sistemático

d) Muestreo aleatorio por conglomerado.

El muestreo por conglomerados, también conocido como muestreo por racimos, es un

B. Determinar el tamaño de la muestra deseada.

C. Identificar un marco de muestreo existente o desarrollar un nuevo marco de