Está en la página 1de 9

CAPITULO I

LA ESTADISTICA

1. BREVE HISTORIA.

La Palabra “estadística” proviene del griego y significa “ciencia del estado”. La raíz
etimológica de la palabra sugiere que el origen de esta ciencia estuvo ligado a la
actividad del gobierno o del poder político.

En efecto en sus comienzos, la estadística tenía como función, simplemente, registrar


características o acontecimientos que tuvieran un interés para los gobernantes de un
territorio concreto. Este registro o recopilación de datos se refería, por lo general , a la
población y a la riqueza existentes en él. Una segunda etapa en este desarrollo histórico
surge como consecuencia de la necesidad de estudiar de forma más detallada algunos
aspectos particulares de la población: nacimientos, muertes, etc. Durante el siglo XVIII,
y debido a la influencia de los trabajos demográficos se comienzan a realizar los
primeros censos oficiales en Europa. Sin embargo, puede decirse que hasta finales del
siglo XVIII y principios del siglo XIX todos los trabajos estadísticos eran puramente
descriptivos, y, en general, ligados a la autoridad política.

Sin embargo, el verdadero origen de la estadística moderna puede situarse en la última


década del siglo XIX, como resultado de la unión de dos disciplinas que evolucionan de
manera independiente, el cálculo de probabilidades que nace en el siglo XVII como
teoría matemática de los juegos de azar, y la estadística o ciencia del estado, que estudia
la descripción de los datos.

A partir de este momento, y en los inicios del siglo XX, se observa un período de rápido
e intenso desarrollo de los conceptos y técnicas, que ha continuado hasta nuestros días,
surgiendo lo que se denomina “inferencia estadística”. Entre 1.920 y el final de la
segunda guerra mundial, se generaliza la aplicación de la estadística a campos tan
diversos como la Ingeniería, la Física, la Antropología, la Economía, etc. Una ulterior
etapa se inicia a partir de los años cincuenta de éste siglo, con la aparición del
computador, gracias al cual la metodología estadística va a convertirse en un
instrumento de análisis muy poderoso.

2. CONCEPTOS BÁSICOS.

2.1. POBLACIÓN, ELEMENTO Y TAMAÑO, MUESTRAS.

El objetivo de toda investigación estadística es tener información sobre una o más


características de un determinado conjunto o colectivo, tratando de detectar las posibles
relaciones entre sus elementos. A la vista de este objetivo, parece lógico comenzar
definiendo una serie de conceptos como los de COLECTIVO, ELEMENTO, etc., que
serán términos básicos en los temas siguientes.

Por POBLACION O COLECTIVO se entiende todo conjunto de personas, animales u


objetos sobre el que se va a llevar a cabo una investigación.

1
Así, es claro, que la población debe estar bien definida, esto es, que no existan
ambigüedades, por ejemplo, si la población que se va a estudiar es el conjunto de
personas que conviven en una universidad, es necesario especificar si se incluye solo a
los alumnos o si se consideran los alumnos y los profesores, o sí, además deben
incorporarse otras personas como por ejemplo, las secretarias.

Se denomina ELEMENTO DE UNA POBLACION a cada una de las unidades,


individuos o entes que la componen, por tanto, los elementos podrán ser de cualquier
naturaleza como: personas, automóviles, familias, fábricas, etc.

Por TAMAÑO DE UNA POBLACION se entiende el número de elementos que la


integran usualmente y se denota con N. Así, por ejemplo, si la población es el conjunto
de alumnos de la escuela de finanzas, el tamaño de la población será el número de
alumnos matriculados en dicha escuela en el momento de la investigación. Si en la
investigación se puede tener información de todos los individuos de la población se
estaría hablando de un CENSO, el cual es considerado como una observación
exhaustiva. Lamentablemente no siempre es posible practicar un censo como tal por
diversas razones como:

1º. El costo de recopilar y procesar datos es menor cuando el número de unidades


elementales es menor.

2º. En algunas ocasiones un censo es físicamente imposible de realizar, bien sea porque
el número de unidades elementales es muy grande o porque algunas de ellas son
inaccesibles. Cualquier proceso que se espera funcione con duración indefinida en
condiciones idénticas generan un número infinito de resultados, un censo así, nunca
observará, todas las características de un proceso, por ejemplo, nunca podrá registrar
cuantos circuitos integrados de memoria defectuosos es probable que se produzcan en el
transcurso de un nuevo proceso de producción.

3º. Un censo no tiene sentido si para adquirir la información deseada se requiere


destruir las unidades elementales de interés, por ejemplo, medir la vida útil de las
baterías. Si se probaran todas las baterías (unidades elementales) se consumiría toda la
producción.

4º. Un censo no tiene sentido cuando produce información que llega demasiado tarde
para su utilización.

Estos y otros inconvenientes hacen necesario trabajar con observaciones parciales de la


población llamadas MUESTRAS.

Entendido de esta manera una MUESTRA es un subconjunto de una población. La


principal condición que debe cumplir una MUESTRA es que sea “representativa de la
población”.

2.2. TIPOS DE MUESTRAS.

Se obtienen diferentes tipos de muestras según sea el método de selección de las


unidades elementales para observación, en general, se dan muestras no probabilísticas y
muestras probabilísticas.

2
2.2.1. Muestras no probabilísticas.

En las muestras no probabilísticas, la elección de los elementos no depende de la


probabilidad, sino de causas relacionadas con las características del investigador o del
que hace la muestra. Aquí el procedimiento no es mecánico ni con base en fórmulas de
probabilidad, sino que depende del proceso de toma de decisiones de una persona o un
grupo de personas, y desde luego, las muestras seleccionadas por decisiones subjetivas
tienden a estar sesgadas. Dos tipos de muestreo particulares a este caso son las muestras
de conveniencia y las muestras de juicio, que no serán analizadas en este texto.

2.2.2. Muestras probabilísticas.

El muestreo probabilístico está caracterizado porque de antemano puede calcularse la


probabilidad de obtener cada una de las muestras que sea posible seleccionar. Existen,
entre otros, el muestreo aleatorio simple, sistemático, estratificado y por conglomerados.

2.2.2.1. Muestreo aleatorio simple. (MAS)

También llamado irrestricto aleatorio, está caracterizado porque cada una de las
muestras de tamaño n tiene la misma probabilidad de ser seleccionada. Esto es, si se
trata de una población de tamaño N y de ella se extraen muestras no ordenadas sin
N
repetición de tamaño n, entonces cada una de las   1 muestras posibles que podemos
n
 N

formar, tiene una probabilidad 1/   de ser escogida.


n
Así, por ejemplo, supongamos que cierta compañía tiene en su nómina 30 vendedores
(N=30), tres de los cuales pertenecen al mismo grupo. Si se toma una muestra aleatoria
simple sin repetición de tamaño 3 (n=3), la probabilidad que se tome cualquier
combinación de tres vendedores es:

N  30   30 
1/   = 1/   = 1/   = 1/ 4060
   
n 3 3

Así que la probabilidad de que los vendedores entren en la muestra debe ser también 1/
4060.

Para llevar a cabo un muestreo aleatorio simple se requiere que la muestra sea escogida
siguiendo algún procedimiento que garantice aleatoriedad en la selección de cada una de
las unidades que conforman la muestra. Este procedimiento puede realizarse de varias
formas, pero siempre partiendo del supuesto de que las unidades u objetos que
constituyen la población son numerados. Esta lista de individuos o unidades se conoce
con el nombre de MARCO DE MUESTREO.

N N!
1  
  n!*(N  n)!
n

3
El procedimiento más utilizado puede simplificarse al utilizar la tabla de números
aleatorios (que no se trabajará en este texto) con ayuda de las computadoras o de las
calculadoras de bolsillo.

A continuación ilustramos el procedimiento:

Suponga la siguiente lista de 30 vendedores de los cuales se desea escoger tres (3). Este
es el marco de muestreo:

1. María Emilce Bonilla 16. José Cortes


2. Harold Rodríguez 17. Isabel Barrera
3. Ligia Aguas 18. Claudia Campos
4. Wilson Bohórquez 19. Martha Castillo
5. Jorge Camargo 20. Angélica Contreras
6. Horacio Rodríguez 21. Claudia Díaz
7. Ana lucia Rojas 22. Diana Hernández
8. Alma Valencia 23. Sandra Riaño
9. María Góngora 24. Patricia Silva
10. Luz González 25. Alexandra Guzmán
11. Marisol Pineda 26. Gloria rincón
12. Rosa Rivera 27. Liliana Santafé
13. Víctor Sáchica 28. Esperanza Sotelo
14. Alba Cifuentes 29. Olaris Páez
15. Lilia Almanza 30. Dora Daza

En una calculadora Hewlett Packard 19BII, se ingresa por Shift (botón amarillo) Math;
en el menú de pantalla aparece PROB, el cual se activa con la tecla inmediatamente
inferior. Una vez se ha activado en el menú aparece (RAND/NALE) para nuestro
proceso se activa tres veces (ya que la muestra es de tamaño n=3). Supongamos que
aparecen los números: 0.9451; 0.3711; 0.1170. En las calculadoras CASIO simplemente
basta activar la tecla RAN #. A continuación se multiplica cada uno de estos números
por N = 30 (tamaño de la población) se redondea el resultado al entero positivo más
cercano así:

0.9451 X 30 = 28,353 = 28
0.3711 X 30 = 11,133 = 11
0,1170 X 30 = 3,51 = 4

Esto significa que las personas que están en la lista de marco de muestreo numeradas
como 4, 11, 28 deben ser las escogidas; esto es: Wilson Bohorquez, Marisol pineda,
Esperanza Sotelo.

Finalmente debemos decir que el M.A.S. puede utilizarse si las unidades de muestreo
pueden identificarse fácilmente y si la población es homogénea y pequeña. Pero el
método es costoso y lleva tiempo, especialmente si la población es grande, puesto que
es necesario numerar todos los elementos además, si los elementos próximos entre sí
son más homogéneos que los que están apartados, una muestra aleatoria simple puede
no ser representativa de la población.

2.2.2.2. Muestreo sistemático.

4
Uno de los diseños de muestreo restringido más utilizado es el muestreo sistemático.
Consiste en particionar la población en n (tamaño de la muestra) grupos de tamaño m.
Del primer grupo se toma al azar un elemento, digamos que el numerado con k. Del
segundo se toma el elemento con el número k+m y así sucesivamente hasta completar
la muestra.

Así, en el caso de los vendedores, los 30 se particionan en tres grupos de 10 (m=10)


elementos cada uno. El primero lo forman los vendedores del 1 al 10, el segundo del 11
al 20, y el tercero del 21 al 30. Ahora del primer grupo seleccionamos aleatoriamente
una unidad.

Ejemplo: un número aleatorio es 0.7620 entonces:

0.7620 X 10 = 7.6 = 8 = k

Así se tiene k = 8 k + m = 8 + 10 = 18 18 + m = 28

Luego la muestra está conformada por los individuos número: 8, 18 y 28. Los cuales en
este caso son: Alma Valencia, Claudia Campos y Esperanza Sotelo.

2.2.2.3. Muestreo estratificado.

Otro plan de muestreo restringido que puede resultar más efectivo que el M.A.S. es el
muestreo aleatorio estratificado, procedimiento este que exige tener conocimiento
previo de la población. Consiste en particionar la población en subpoblaciones al
agrupar en ellas los elementos más parecidos entre sí, cada subpoblación se llama
estrato y en cada una de ellas se lleva un M.A.S. para escoger la muestra. La muestra
global se obtiene al combinar las submuestras de todos los estratos.

El reparto del tamaño de la muestra en los distintos estratos se llama AFIJACION.


Cuando la muestra se reparte por partes iguales en los estratos la afijación se dice igual
o uniforme. Si se hace proporcional al número de elementos en cada estrato, tenemos la
afijación proporcional y si se hace proporcional al número de elementos y a la varianza
de cada estrato, se tiene en cambio la afijación óptima.

El muestreo por estratos es el más efectivo cuando se trata de poblaciones


HETEROGENEAS, tales como datos de desempleo (que varían de industria a industria
y de ocupación a ocupación) ventas al por menor (que difiere entre las distintas regiones
geográficas), o las actitudes de los consumidores respecto de los nuevos modelos de
automóviles (en las que influyen factores tales como el sexo, la edad y la categoría de
los ingresos). Al hacerse la estratificación las clases se establecen de modo que las
unidades de muestreo tiendan a ser UNIFORMES DENTRO DE CADA CLASE y las
clases tiendan a ser diferentes entre sí, así se puede controlar la proporción de cada
estrato en la muestra global y al no dejarla al azar queda asegurado el carácter
representativo de la muestra.

2.2.2.4. Muestreo por Conglomerados.

5
El muestreo por conglomerados es un esquema en el cual se eligen los individuos por
grupos llamados conglomerados, cada conglomerado que resulta en la muestra se revisa
total o parcialmente, así, por ejemplo, si se tienen 100 cajas de manzanas y de estas nos
interesa estudiar su sabor, lo indicado sería seleccionar aleatoriamente cierto número de
cajas y de estas escoger las manzanas para nuestro estudio. En este caso cada caja
constituye un conglomerado. En el plan de muestreo por conglomerados los mejores
resultados se obtienen cuando las diferencias entre estos respecto de la característica de
interés, es lo más pequeña posible y las diferencias entre los elementos individuales
dentro de cada conglomerado se hace tan grande como sea posible. Al tomar en cuenta
esta particularidad del muestreo por conglomerados podemos decir que es totalmente
opuesto al muestreo estratificado. Lo ideal sería que cada conglomerado constituyese
una miniatura de la población y así un solo conglomerado sería una muestra
satisfactoria.

Con frecuencia los conglomerados se llaman unidades de muestreo primario, si todos


los elementos o unidades elementales de los conglomerados se incluyen en la muestra,
el procedimiento se llama MUESTREO DE UNA ETAPA. Si se saca una submuestra
aleatoria de elementos de cada conglomerado seleccionado, se tiene lo que se denomina
muestreo en dos etapas ó muestreo BIETAPICO, si intervienen más de dos etapas en la
obtención de la muestra global, se dice que es un muestreo POLIETAPICO. Por
ejemplo: en una encuesta sobre las actitudes de los estudiantes de enseñanza superior de
un país, se tomaron como conglomerados o unidades de muetreo primarias las
Universidades e Institutos Universitarios siendo esta la primera etapa, la segunda podría
ser la selección de divisiones dentro de cada una de las Universidades. por último, en la
tercera etapa, se toman estudiantes de todas las divisiones seleccionadas para constituir
la muestra. Desde luego, los métodos de muestreo aleatorio se emplean en cada etapa.
El muestreo por conglomerados se utiliza a menudo en el control estadístico de la
calidad. Primero se seleccionan “lotes” o “tandas” de producción al azar como
conglomerados.

2.3. VARIABLES.

Los caracteres de los elementos de la población pueden ser de dos tipos: Cualitativos o
atributos y cuantitativos.

2.3.1. Caracteres cualitativos o atributos.

Son aquellos que para indicar su valor en un elemento no tenemos que recurrir a un
valor numérico. Por ejemplo: el color de los ojos, profesión, estado civil, nivel de
estudios. A este tipo de carácter se le denomina VARIABLE CUALITATIVA.

2.3.2. Caracteres cuantitativos.

Son aquellos que al observarlos en un elemento se describen mediante un número. Se


clasifican como VARIABLES DISCRETAS Y VARIABLES CONTINUAS.

2.3.2.1. Variables discretas.

6
Son aquellas que surgen de un conteo ó de otra manera son aquellas que toman un
número finito de valores dentro de un intervalo finito, generalmente se trata de números
enteros y positivos. Por ejemplo: el número de hijos de un matrimonio, el número de
trabajadores de una empresa, etc.

2.3.2.1. Variables continuas.

Surgen de una medición y son aquellas que pueden tomar infinitos valores de un
intervalo finito en el que esté definida. Como ejemplos más frecuentes de variables
continuas tenemos el peso el volumen, la longitud, etc.

En la práctica, la distinción entre variables discretas y continuas no es tan clara. Así,


cuando observamos variables continuas, los instrumentos de medida tienen
inevitablemente una precisión limitada. Y, por ejemplo, existen variables discretas que
pueden tomar un número de valores muy elevado.

La observación o la medición de una variable llevará asociados unos números. Este


conjunto de números o mediciones se conoce como DATOS, VALORES U
OBSERVACIONES. No hay que confundir la variable estadística con una medición
particular de la variable que es un valor de la variable estadística. Por ejemplo: En una
clase de un curso de educación primaria de un colegio se ha medido la estatura de todos
los alumnos. En este caso la variable es la estatura y la estatura de un alumno en
particular es un número el cual es un valor de la variable.

En las estadísticas puede interesar una sola variable o atributo, se habla así de un caso
unidimensional (alumnos del curso clasificados por estatura) también pueden
considerarse simultáneamente dos o más variables se trata entonces de un caso
bidimensional (empleados clasificados por sueldo y sexo) o de un caso
multidimensional (clasificación de alumnos por edad, sexo y peso). Del cuadro
bidimensional se dice también que es de doble entrada.

Cuando en una serie estadística no importa el orden en que se presenta las


observaciones se habla de un caso atemporal o no ordinal. Para estudiar la estatura de un
grupo de alumnos, no importa la fecha de matrícula o el orden en que aparecen sus
correspondientes fichas médicas. En cambio, en otras series es de gran importancia
estudiar las variaciones que se presentan en los datos, a medida que transcurre el
tiempo, si se analiza el proceso de fabricación de cierto producto (control de calidad),
basándose en observaciones con intervalos regulares, es preciso conservar el orden de
los datos obtenidos. En este caso se habla de series cronológicas, de tiempo ó históricas.
Una vez recolectados los datos, es necesario presentarlos en forma tal, que se facilite su
comprensión y su posterior análisis y utilización. Para ello se ordenan en cuadros
numéricos y luego se presentan en gráficos.

2.4 RAMAS DE LA ESTADISTICA.

Hay dos ramas fundamentales en el campo de la estadística. En primer lugar está la fase
que solo se limita a la descripción de una serie de datos sin llegar a conclusiones o
generalizar con respecto a un grupo mayor. Esta se conoce como ESTADISTICA
DESCRIPTIVA O DEDUCTIVA. En segundo lugar está la fase de análisis que trata de

7
llegar a conclusiones acerca de un grupo mayor basado en la información de un grupo
menor o muestra; es la llamada ESTADISTICA INFERENCIAL O INDUCTIVA.

2.5 ESCALAS DE MEDICION.

La asignación de números (la medición) a los objetos se puede hacer de acuerdo con
reglas diferentes, lo cual origina distintas escalas de medición. Existen diferentes tipos
de escalas de acuerdo a la rigurosidad con que han sido construidas, y al propio
comportamiento de las variables que miden. Se acostumbra a clasificar en cuatro tipos
generales que son las siguientes: escalas nominales, ordinales, de intervalos iguales y de
cocientes o razones.

Escala nominal: Es aquella en las que sólo se manifiesta una equivalencia de categorías
entre los diferentes puntos que asume la variable. Es como una simple lista de las
diferentes posiciones que puede adoptar la variable, pero sin que en ella se discrimine
ningún tipo de orden o de relación. En otras palabras una variable que se mide en escala
nominal es aquella en que los números sólo se emplean para diferenciar los objetos o
distintas categorías o cuando se emplean nombres. Ejemplo: variables como sexo y
religión se miden en escala nominal ya que las categorías que poseen no tienen jerarquía
entre sí. Las categorías únicamente reflejan diferencias en la variable. No hay orden de
mayor a menor. Este tipo de escala representa el nivel más bajo de medición.

Escala Ordinal: Distingue los diferentes valores de la variable, jerarquizándolos de


acuerdo a un rango. Establece que existe una gradación entre uno y otro valor de la
escala, de tal modo que cualquiera de ellos es mayor que el precedente y menor que el
que le sigue a continuación. sin embargo no dejan en claro cuál es la distancia entre un
valor y otro, de tal modo que esta queda indeterminada. En otras palabras, solo nos
esclarecen sobre el rango que las distintas posiciones guardan entre sí. Un ejemplo de
ello sería la variable “Escolaridad” podemos decir que una persona que ha tenido dos
años de instrucción escolar ha recibido más de ésta que quien solo tiene un año y menos
que quien posee tres. Sin embargo no puede afirmarse válidamente que la diferencia
entre quien posee 2 años de instrucción y quien ha recibido un año es igual a la
diferencia entre quienes han recibido 16 y 17 años de educación formal. Por tanto, como
no podemos determinar la equivalencia entre las distancias que separan un valor de otro,
debemos concluir que la escala posee solamente la categoría ordinal.

Cuando se cumple con el principio de transitividad de la desigualdad, la medición


ordinal es posible. Este principio puede ser enunciado así:

Sí: A > B y B >C luego A > C.

La relación de desigualdad (mayor o menor) ubica a la unidad de análisis en una


posición (valor de rango) en el atributo considerado. Cuando se dice que A es mayor
que B en esta escala no puede determinarse cuántas veces es mayor y siendo B Mayor
que C, la distancia entre B y C puede ser totalmente distinta de la existente entre A y B.
Cuando utilizamos números para clasificar los estratos socioeconómicos, o cuando
designamos preferencias estamos trabajando en una escala ordinal.

8
Escala de intervalos iguales: Además de poseer la equivalencia de categorías y el
ordenamiento interno entre ellas, como en el caso de las ordinales, tiene la característica
de que la distancia entre los intervalos está claramente determinada y que estos son
iguales entre sí. Un ejemplo típico de las escalas de intervalos iguales está dado por las
escalas termométricas, entre 23 y 24 grados centígrados, existe la misma diferencia que
entre 45 y 46 grados. Muchas otras escalas, como las que surgen de test psicológicos de
rendimiento, son de este tipo. La limitación que poseen es que no definen un cero
absoluto, un valor cero que exprese realmente la ausencia completa de la cualidad
medida. Por ello no se pueden establecer equivalencias matemáticas como las de
proporcionalidad: no puede afirmarse que 10ºC es el doble de temperatura que 5ºC,
porque el 0 de la escala es un valor arbitrario y no corresponde con la ausencia absoluta
de la variable que se mide. Los tiempos del calendario también se miden en escala de
intervalos.

Escala de razón o cociente: En esta se conservan todas las propiedades de los casos
anteriores pero además se añade la existencia de un valor cero real, con lo que se
posibilitan las operaciones aritméticas como la de obtener razones o cocientes. Esto
quiere decir que, por ejemplo, un valor de 20 en una escala de este tipo es el doble de un
valor de 10, o las dos terceras partes de un valor de 30. Variables como el número de
hermanos, estatura, edad, peso, intensidad de corriente eléctrica, temperatura en grados
Kelvin, ingreso monetario, gastos directos, etc., se miden mediante una escala de razón.

2.6 DEFINICION DE ESTADISTICA.

Así podemos establecer, finalmente, que la estadística comprende el conjunto de


métodos y procedimientos para obtener describir e interpretar conjuntos de datos y para
basar decisiones y predecir fenómenos que pueden expresarse en forma cuantitativa en
situaciones de incertidumbre.

También podría gustarte