Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capitulo I
Capitulo I
LA ESTADISTICA
1. BREVE HISTORIA.
La Palabra “estadística” proviene del griego y significa “ciencia del estado”. La raíz
etimológica de la palabra sugiere que el origen de esta ciencia estuvo ligado a la
actividad del gobierno o del poder político.
A partir de este momento, y en los inicios del siglo XX, se observa un período de rápido
e intenso desarrollo de los conceptos y técnicas, que ha continuado hasta nuestros días,
surgiendo lo que se denomina “inferencia estadística”. Entre 1.920 y el final de la
segunda guerra mundial, se generaliza la aplicación de la estadística a campos tan
diversos como la Ingeniería, la Física, la Antropología, la Economía, etc. Una ulterior
etapa se inicia a partir de los años cincuenta de éste siglo, con la aparición del
computador, gracias al cual la metodología estadística va a convertirse en un
instrumento de análisis muy poderoso.
2. CONCEPTOS BÁSICOS.
1
Así, es claro, que la población debe estar bien definida, esto es, que no existan
ambigüedades, por ejemplo, si la población que se va a estudiar es el conjunto de
personas que conviven en una universidad, es necesario especificar si se incluye solo a
los alumnos o si se consideran los alumnos y los profesores, o sí, además deben
incorporarse otras personas como por ejemplo, las secretarias.
2º. En algunas ocasiones un censo es físicamente imposible de realizar, bien sea porque
el número de unidades elementales es muy grande o porque algunas de ellas son
inaccesibles. Cualquier proceso que se espera funcione con duración indefinida en
condiciones idénticas generan un número infinito de resultados, un censo así, nunca
observará, todas las características de un proceso, por ejemplo, nunca podrá registrar
cuantos circuitos integrados de memoria defectuosos es probable que se produzcan en el
transcurso de un nuevo proceso de producción.
4º. Un censo no tiene sentido cuando produce información que llega demasiado tarde
para su utilización.
2
2.2.1. Muestras no probabilísticas.
También llamado irrestricto aleatorio, está caracterizado porque cada una de las
muestras de tamaño n tiene la misma probabilidad de ser seleccionada. Esto es, si se
trata de una población de tamaño N y de ella se extraen muestras no ordenadas sin
N
repetición de tamaño n, entonces cada una de las 1 muestras posibles que podemos
n
N
N 30 30
1/ = 1/ = 1/ = 1/ 4060
n 3 3
Así que la probabilidad de que los vendedores entren en la muestra debe ser también 1/
4060.
Para llevar a cabo un muestreo aleatorio simple se requiere que la muestra sea escogida
siguiendo algún procedimiento que garantice aleatoriedad en la selección de cada una de
las unidades que conforman la muestra. Este procedimiento puede realizarse de varias
formas, pero siempre partiendo del supuesto de que las unidades u objetos que
constituyen la población son numerados. Esta lista de individuos o unidades se conoce
con el nombre de MARCO DE MUESTREO.
N N!
1
n!*(N n)!
n
3
El procedimiento más utilizado puede simplificarse al utilizar la tabla de números
aleatorios (que no se trabajará en este texto) con ayuda de las computadoras o de las
calculadoras de bolsillo.
Suponga la siguiente lista de 30 vendedores de los cuales se desea escoger tres (3). Este
es el marco de muestreo:
En una calculadora Hewlett Packard 19BII, se ingresa por Shift (botón amarillo) Math;
en el menú de pantalla aparece PROB, el cual se activa con la tecla inmediatamente
inferior. Una vez se ha activado en el menú aparece (RAND/NALE) para nuestro
proceso se activa tres veces (ya que la muestra es de tamaño n=3). Supongamos que
aparecen los números: 0.9451; 0.3711; 0.1170. En las calculadoras CASIO simplemente
basta activar la tecla RAN #. A continuación se multiplica cada uno de estos números
por N = 30 (tamaño de la población) se redondea el resultado al entero positivo más
cercano así:
0.9451 X 30 = 28,353 = 28
0.3711 X 30 = 11,133 = 11
0,1170 X 30 = 3,51 = 4
Esto significa que las personas que están en la lista de marco de muestreo numeradas
como 4, 11, 28 deben ser las escogidas; esto es: Wilson Bohorquez, Marisol pineda,
Esperanza Sotelo.
Finalmente debemos decir que el M.A.S. puede utilizarse si las unidades de muestreo
pueden identificarse fácilmente y si la población es homogénea y pequeña. Pero el
método es costoso y lleva tiempo, especialmente si la población es grande, puesto que
es necesario numerar todos los elementos además, si los elementos próximos entre sí
son más homogéneos que los que están apartados, una muestra aleatoria simple puede
no ser representativa de la población.
4
Uno de los diseños de muestreo restringido más utilizado es el muestreo sistemático.
Consiste en particionar la población en n (tamaño de la muestra) grupos de tamaño m.
Del primer grupo se toma al azar un elemento, digamos que el numerado con k. Del
segundo se toma el elemento con el número k+m y así sucesivamente hasta completar
la muestra.
0.7620 X 10 = 7.6 = 8 = k
Así se tiene k = 8 k + m = 8 + 10 = 18 18 + m = 28
Luego la muestra está conformada por los individuos número: 8, 18 y 28. Los cuales en
este caso son: Alma Valencia, Claudia Campos y Esperanza Sotelo.
Otro plan de muestreo restringido que puede resultar más efectivo que el M.A.S. es el
muestreo aleatorio estratificado, procedimiento este que exige tener conocimiento
previo de la población. Consiste en particionar la población en subpoblaciones al
agrupar en ellas los elementos más parecidos entre sí, cada subpoblación se llama
estrato y en cada una de ellas se lleva un M.A.S. para escoger la muestra. La muestra
global se obtiene al combinar las submuestras de todos los estratos.
5
El muestreo por conglomerados es un esquema en el cual se eligen los individuos por
grupos llamados conglomerados, cada conglomerado que resulta en la muestra se revisa
total o parcialmente, así, por ejemplo, si se tienen 100 cajas de manzanas y de estas nos
interesa estudiar su sabor, lo indicado sería seleccionar aleatoriamente cierto número de
cajas y de estas escoger las manzanas para nuestro estudio. En este caso cada caja
constituye un conglomerado. En el plan de muestreo por conglomerados los mejores
resultados se obtienen cuando las diferencias entre estos respecto de la característica de
interés, es lo más pequeña posible y las diferencias entre los elementos individuales
dentro de cada conglomerado se hace tan grande como sea posible. Al tomar en cuenta
esta particularidad del muestreo por conglomerados podemos decir que es totalmente
opuesto al muestreo estratificado. Lo ideal sería que cada conglomerado constituyese
una miniatura de la población y así un solo conglomerado sería una muestra
satisfactoria.
2.3. VARIABLES.
Los caracteres de los elementos de la población pueden ser de dos tipos: Cualitativos o
atributos y cuantitativos.
Son aquellos que para indicar su valor en un elemento no tenemos que recurrir a un
valor numérico. Por ejemplo: el color de los ojos, profesión, estado civil, nivel de
estudios. A este tipo de carácter se le denomina VARIABLE CUALITATIVA.
6
Son aquellas que surgen de un conteo ó de otra manera son aquellas que toman un
número finito de valores dentro de un intervalo finito, generalmente se trata de números
enteros y positivos. Por ejemplo: el número de hijos de un matrimonio, el número de
trabajadores de una empresa, etc.
Surgen de una medición y son aquellas que pueden tomar infinitos valores de un
intervalo finito en el que esté definida. Como ejemplos más frecuentes de variables
continuas tenemos el peso el volumen, la longitud, etc.
En las estadísticas puede interesar una sola variable o atributo, se habla así de un caso
unidimensional (alumnos del curso clasificados por estatura) también pueden
considerarse simultáneamente dos o más variables se trata entonces de un caso
bidimensional (empleados clasificados por sueldo y sexo) o de un caso
multidimensional (clasificación de alumnos por edad, sexo y peso). Del cuadro
bidimensional se dice también que es de doble entrada.
Hay dos ramas fundamentales en el campo de la estadística. En primer lugar está la fase
que solo se limita a la descripción de una serie de datos sin llegar a conclusiones o
generalizar con respecto a un grupo mayor. Esta se conoce como ESTADISTICA
DESCRIPTIVA O DEDUCTIVA. En segundo lugar está la fase de análisis que trata de
7
llegar a conclusiones acerca de un grupo mayor basado en la información de un grupo
menor o muestra; es la llamada ESTADISTICA INFERENCIAL O INDUCTIVA.
La asignación de números (la medición) a los objetos se puede hacer de acuerdo con
reglas diferentes, lo cual origina distintas escalas de medición. Existen diferentes tipos
de escalas de acuerdo a la rigurosidad con que han sido construidas, y al propio
comportamiento de las variables que miden. Se acostumbra a clasificar en cuatro tipos
generales que son las siguientes: escalas nominales, ordinales, de intervalos iguales y de
cocientes o razones.
Escala nominal: Es aquella en las que sólo se manifiesta una equivalencia de categorías
entre los diferentes puntos que asume la variable. Es como una simple lista de las
diferentes posiciones que puede adoptar la variable, pero sin que en ella se discrimine
ningún tipo de orden o de relación. En otras palabras una variable que se mide en escala
nominal es aquella en que los números sólo se emplean para diferenciar los objetos o
distintas categorías o cuando se emplean nombres. Ejemplo: variables como sexo y
religión se miden en escala nominal ya que las categorías que poseen no tienen jerarquía
entre sí. Las categorías únicamente reflejan diferencias en la variable. No hay orden de
mayor a menor. Este tipo de escala representa el nivel más bajo de medición.
8
Escala de intervalos iguales: Además de poseer la equivalencia de categorías y el
ordenamiento interno entre ellas, como en el caso de las ordinales, tiene la característica
de que la distancia entre los intervalos está claramente determinada y que estos son
iguales entre sí. Un ejemplo típico de las escalas de intervalos iguales está dado por las
escalas termométricas, entre 23 y 24 grados centígrados, existe la misma diferencia que
entre 45 y 46 grados. Muchas otras escalas, como las que surgen de test psicológicos de
rendimiento, son de este tipo. La limitación que poseen es que no definen un cero
absoluto, un valor cero que exprese realmente la ausencia completa de la cualidad
medida. Por ello no se pueden establecer equivalencias matemáticas como las de
proporcionalidad: no puede afirmarse que 10ºC es el doble de temperatura que 5ºC,
porque el 0 de la escala es un valor arbitrario y no corresponde con la ausencia absoluta
de la variable que se mide. Los tiempos del calendario también se miden en escala de
intervalos.
Escala de razón o cociente: En esta se conservan todas las propiedades de los casos
anteriores pero además se añade la existencia de un valor cero real, con lo que se
posibilitan las operaciones aritméticas como la de obtener razones o cocientes. Esto
quiere decir que, por ejemplo, un valor de 20 en una escala de este tipo es el doble de un
valor de 10, o las dos terceras partes de un valor de 30. Variables como el número de
hermanos, estatura, edad, peso, intensidad de corriente eléctrica, temperatura en grados
Kelvin, ingreso monetario, gastos directos, etc., se miden mediante una escala de razón.