Está en la página 1de 14

Unidad II

OBJETIVO DE APRENDIZAJE

Al finalizar la unidad el alumno podrá :

“Reconocer variables y sus escalas de medición, Agrupar datos en tablas


Construir graficas apropiadas para representar los datos”

Técnicas de Recolección de Datos

En estadística se utilizan una variedad de métodos a fin de recopilar


los datos sobre ciertas situaciones entre estos métodos tenemos la
entrevista, la encuesta y la observación. Cada una tiene desde luego
ventajas y desventajas.
En general se utilizan dos o tres para complementar el trabajo de
cada una y ayudar a asegurar una investigación optima.

La entrevista

Las entrevistas se utilizan para recabar información en forma verbal,


El se puede entrevistar al personal en forma individual o en grupos
algunos prefieren este método a las otras técnicas. Sin embargo, las
entrevistas no siempre son la mejor fuente de datos de aplicación.
Una de las ventajas de la entrevista ofrece al analista una excelente
oportunidad para establecer una corriente de simpatía con el personal
usuario, lo cual es fundamental en transcurso del estudio.

La encuesta

La encuesta se usa más frecuentemente para describir un método de


obtener información de una muestra de individuos. Esta muestra es
usualmente sólo una fracción de la población bajo estudio.
Por ejemplo, antes de una elección, una muestra de electores es
interrogada para determinar cómo los candidatos y los asuntos son
percibidos por el público un fabricante hace una encuesta al mercado
potencial antes de introducir un nuevo producto una entidad del
gobierno comisiona una encuesta para obtener información para
evaluar legislación existente o para preparar y proponer nueva
legislación.
No tan sólo las encuestas tienen una gran variedad de propósitos,
sino que también pueden conducirse de muchas maneras, incluyendo
por teléfono, por correo o en persona.
Aún así, todas las encuestas tienen algunas características en común.

A diferencia de un censo donde todos los miembros de la población


son estudiados, las encuestas recogen información de una porción de
la población de interés, dependiendo el tamaño de la muestra en el
propósito del estudio.

La muestra es seleccionada científicamente de manera que cada


persona en la población tenga una oportunidad medible de ser
seleccionada. De esta manera los resultados pueden ser proyectados
con seguridad de la muestra a la población mayor. La información es
recogida usando procedimientos estandarizados de manera que a
cada individuo se le hacen las mismas preguntas en mas o menos la
misma manera. La intención de la encuesta no es describir los
individuos particulares quienes, por azar, son parte de la muestra sino
obtener un perfil compuesto de la población.
Una encuesta recoge información de una muestra.
Una muestra es usualmente sólo una porción de la población bajo
estudio.
El estándar de la industria para todas las organizaciones respetables
que hacen encuestas es que los participantes individuales nunca
puedan ser identificados al reportar los hallazgos. Todos los resultados
de la encuesta deben presentarse en resúmenes completamente
anónimos, tal como tablas y gráficas estadísticas.

La observación

Otra técnica útil para el progreso de investigación, consiste en


observar a las personas cuando efectúan su trabajo. Como técnica de
investigación, la observación tiene amplia aceptación científica. Los
sociólogos, sicólogos e ingenieros industriales utilizan extensamente
ésta técnica con el fin de estudiar a las personas en sus actividades
de grupo y como miembros de la organización. El propósito de la
organización es múltiple: permite al analista determinar que se está
haciendo, como se está haciendo, quien lo hace, cuando se lleva a
cabo, cuanto tiempo toma, dónde se hace y por que se hace.

Tipos de Observación

Se pueden observar de tres maneras básicas. Primero, puede


observar a una persona o actitud sin que el observado se dé cuenta y
su interacción por aparte del propio analista. Quizá esta alternativa
tenga poca importancia para el análisis de sistemas, puesto que
resulta casi imposible reunir las condiciones necesarias. Segundo, el
analista puede observar una operación sin intervenir para nada, pero
estando la persona observada enteramente consciente de la
observación. Por último, puede observar y a la vez estar en contacto
con las personas observas. La interacción puede consistir
simplemente en preguntar respecto a una tarea específica, pedir una
explicación, etc.
Preparación para la observación
1. Determinar y definir aquella que va a observarse.
2. Estimular el tiempo necesario de observación.
3. Obtener la autorización de la gerencia para llevar a cabo la
observación.
4. Explicar a las personas que van a ser observadas lo que se va a
hacer y las razones para ello.

Conducción de la observación
1. Familiarizarse con los componentes físicos del área inmediata
de observación.
2. Mientras se observa, medir el tiempo en forma periódica.
3. Anotar lo que se observa lo más específicamente posible,
evitando las generalidades y las descripciones vagas.
4. Si se está en contacto con las personas observadas, es
necesario abstenerse de hacer comentarios cualitativos o que
impliquen un juicio de valores.
5. Observar las reglas de cortesía y seguridad.

Secuela de la observación
1. Documentar y organizar formalmente las notas, impresionistas,
etc.
2. Revisar los resultados y conclusiones junto con la persona
observada, el supervisar inmediato y posiblemente otro de
sistemas.

Elaboración e Interpretación de Cuadros de


Frecuencia

Cuando los datos de una variable están dispersos, la dispersión


sigue un cierto patrón. Inicialmente los datos no nos dicen nada por
sí mismos, pero si los dividimos en clases o celdas ordenadamente,
puede aclararse la forma de su dispersión, es decir, puede
aclararse la forma de como están distribuidos. Esta forma de la
distribución de los datos inherente a su variabilidad se denomina
distribución de frecuencias.
Normalmente es posible ver la forma general de una distribución
si se recogen cien o más valores y se prepara convenientemente
una tabla de frecuencias con diez o veinte clases. Pero la
distribución se puede ver aun con mayor claridad en forma de
representación grafica mediante un histograma de frecuencias.
El histograma es una representación visual de los datos en la que
pueden observarse más fácilmente tres propiedades esenciales de
una distribución como son: Forma, tendencia central o acumulación
y dispersión o variabilidad. De esta forma, el histograma da una
idea del proceso, lo que un simple examen de los datos tabulados
no hace.

Hay muchos métodos para construir histogramas. Cuando los


datos son numerosos, es muy útil reunirlos en clases y se
recomienda utilizar entre 4 y 20 clases (o celdas). A menudo
conviene elegir un número total de clases igual aproximadamente a
la raíz cuadrada del tamaño de la muestra. Las clases deben tener
amplitud uniforme y se construye la primera de ellas comenzando
con un limite inferior solo un poco menor que el valor mas pequeño
de los datos. Se construye la ultima clase finalizando con un limite
superior solo un poco mayor que el valor más grande de los datos.
Para realizar el histograma se marcan las clases sobre el eje de
abscisas, y sobre cada clase se levanta un rectángulo de altura
proporcional al numero de observaciones de la variable (frecuencia
absoluta) que caen en la clase.

El agrupamiento de los datos en clases condensa los datos


originales, lo que da como resultado una perdida de algo de detalle.
Así, cuando el numero de observaciones es relativamente pequeño, o
cuando las observaciones solo toman pocos valores, puede
construirse el histograma a partir de la distribución de frecuencias de
los datos sin agrupar, dando lugar a los diagramas de barras.

Las distribuciones de frecuencias son la herramienta más sencilla


y más utilizada y eficaz cuando estamos rodeados de montones de
datos, que no nos dicen nada si no hacemos más que enumerarlos. Al
expresar estos datos en forma de una distribución de frecuencias, ya
nos proporcionan diversas ideas. Puesto que las distribuciones de
frecuencias se utilizan muy a menudo en el control de calidad, es
necesario conocer la finalidad de las mismas y su interpretación y
uso.
Dada la importancia de las distribuciones de frecuencias, derivada
de que en todo proceso hay un momento en el que nos encontramos
con un conjunto de datos sobre las variables a tratar, es de gran
importancia formalizar el proceso de recogida, ordenación y
presentación de los datos que, en la mayoría de las ocasiones,
aparecerán dispuestos en tablas de frecuencias de simple o doble
entrada que servirán para analizar las distribuciones de las variables.
Dada una variable X con valores x1 , x 2 ,······,x N aparecen una serie de
conceptos generales que se mencionan a continuación:

Frecuencia absoluta f : Se denomina frecuencia absoluta del valor


x de la variable X, el numero de veces f que se repite ese valor.

Frecuencia relativa f i : Se denomina frecuencia relativa del valor x de


la variable X la relación por cociente entre el número de veces que
aparece el valor x y el número total de valores de la variable (N). O
sea, f i = f/N.

Frecuencia absoluta acumulada F:: Se denomina frecuencia absoluta


acumulada del valor xi a la suma de las frecuencias absolutas de los
valores de la variable X anteriores o iguales a x i .

Frecuencia relativa acumulada F i : Es la frecuencia absoluta acumulada


dividida por el número total de valores de la variable. Su valor es
Fi =F/ N.

De todas estas definiciones se extraen las siguientes


deducciones:

• La suma de las frecuencias absolutas sin acumular es igual


al número total de elementos (  ni ,= N)

• La última frecuencia relativa acumulada es el total


de elementos (N).
• La suma de todos las frecuencias relativas acumular
es igual
• La última frecuencia relativa acumulada es la unidad
Al conjunto de valores que ha tomado una variable, junto con sus
frecuencias, se le denomina distribución de frecuencias de la
característica o variable. Para que una distribución de frecuencias
quede determinada es necesario conocer todos los valores de la
variable y uno cualquiera de los conceptos de frecuencia que
acabamos de definir, ya que el paso de uno a otro es inmediato.
Además, según la forma en que se presenten los valores de la
variable será posible distinguir dos tipos de distribuciones de
frecuencias:
• Las que no están agrupadas en intervalos, que surgen cuando la
información se dispone asociando a cada valor o categoría de la
variable su frecuencia.
• Aquellas cuyos valores observados generalmente aparecen
agrupados en intervalos o clases [L i , L i 1 ] debido al elevado número
de observaciones, y, por tanto, las frecuencias correspondientes a
cada intervalo se obtienen sumando las de los respectivos valores de
la variable que contiene.
Cuando se trabaja con distribuciones agrupadas por intervalos o
clases es necesario que las frecuencias observadas se asignen de
alguna forma a los puntos del intervalo. Se podrá optar por suponer
que los valores del intervalo se distribuyen uniformemente a lo largo
de el o por considerar como representativo de todos los puntos del
intervalo un único valor, por ejemplo, el punto medio del mismo, que
denominaremos marca de clase (X;) y que, en consecuencia, se
obtendrá mediante X i = (L i 1 + L i )/2. Aunque la agrupación de
valores tiene la ventaja de simplificar el manejo de la información,
presenta en cambio un importante inconveniente consistente en la
perdida, en mayor o menor medida, de una parte de dicha
información. La distribución de frecuencias de una variable suele
presentarse ordenadamente mediante la tabla de frecuencias
siguiente:

Ii Xi ni fi Ni
Fi
[L 0 , L i ] x1 n, f 1 =n 1 /N N 1 =n 1
F 1 =N 1 /N [L 1 ,L 2 ] x2 n2 f
2 =n 2 /N N2=n 1 +n 2 F 2 =N2/N
[L 2 , L 3 ] x3 n3 f 3 =n 3 /N N 3=n
1 +n 2 +n 3 F 3 =N3/N

[L k 1 , L k] xk nk f k=n k /N N k =n 1
+...+n k =N Fk=Nk/N=1

n i =N f i =1

Cuando se trabaja con distribuciones de frecuencias uno de los


problemas es la determinación del número apropiado de clases.
Aunque no existe una regla precisa para el número de clases,
generalmente tratamos de no tener ni muchas ni muy pocas en la
distribución de frecuencias. El uso de demasiadas clases tiende a
producir irregularidades en las frecuencias de las clases y obscurece
la concentración de valores. Por el contrario, si usamos un número
excesivamente pequeño de clases, estas tienden a resumir y cierta
información valiosa se pierde en el proceso.
En la práctica, trataremos de no tener una distribución de
frecuencias con menos de 5 y más de 15 clases.
Para determinar el numero aproximado de clases, se puede hacer
uso de

la Regla de Sturges : k  1  3.32 log( N )

K= número de clases,

n= número total de observaciones de la muestra,

log = logaritmo común base 10.

Además el ancho del intervalo vendría dado por


dato mayor  dato menor
ic 
k
Se debe dejar en claro que la Regla de Sturges es una aproximación
del número de clases, siempre es posible tomar una más o una
menos de lo que la formula nos da.

Por ejemplo, si tenemos 142 observaciones, tenemos entonces

K = 1 + 3,32 · log 142 = 8 clases

Otro ejemplo, con n=40, tenemos;

K = 1 + 3,3 2 log 40 = 6,29

El sentido común acepta de buen agrado 6, 7 o 8 clases.


El uso de esta formula puede dar resultados irrazonables cuando el
numero de observaciones es muy grande o muy pequeño. Por esta
razón la Regla de Sturges no es un sustituto del buen juicio.

Ejemplo

Los niveles de colinesterasa

Se midieron los niveles de colinesterasa en un recuento de


eritrocitos en  mol/min/ml de 34 agricultores expuestos a insecticidas agrícolas, obteniéndose
los siguientes datos:

Individuo Nivel Individuo Nivel Individuo Nivel


1 10,6 13 12,2 25 11,8
2 12,5 14 10,8 26 12,7
3 11,1 15 16,5 27 11,4
4 9,2 16 15,0 28 9,3
5 11,5 17 10,3 29 8,6
6 9,9 18 12,4 30 8,5
7 11,9 19 9,1 31 10,1
8 11,6 20 7,8 32 12,4
9 14,9 21 11,3 33 11,1
10 12,5 22 12,3 34 10,2
11 12,5 23 9,7
12 12,3 24 12,0
Niveles de Colinesterasa
Aplicando la fórmula de Sturges obtenemos:

k = 1 + 3.322 log34 = 1 + 3.322 · 1.53148 = 6.08757

es decir, una sugerencia de 6 intervalos.

Como el mayor valor es 16.5 y el menor = 7.8, la longitud


sugerida es

16.5  7.8
ic   1.45
6

Parece, por tanto, razonable tomar como amplitud 1.5, obteniendo


como intervalos en los que clasificar los datos

[7.5 - 9), [9 – 10.5), [10.5 - 12) , [12 – 13.5) , [13.5 - 15) , [15 –
16.5]

Los datos del de los Niveles de Colinesterasa, agrupados en los


intervalos allí obtenidos, proporcionan las cuatro siguientes
distribuciones de frecuencias

Distribuciones de Frecuencias

ic f fi F Fi
7.5-9 3 0.088 3 0'088
9-10.5 8 0.0236 11 0'324
10.5-12 10 0.294 21 0'618
12-13.5 10 0.294 31 0'912
13.5-15 1 0.029 32 0'941
15-16.5 2 0.059 34 1
34 1

Graficas de Variables continuas y


Discretas

La representación gráfica de una distribución de frecuencias depende


del tipo de datos que la constituya.
Datos correspondientes a un carácter cualitativo

La representación gráfica de este tipo de datos está basada en la


proporcionalidad de las áreas a las frecuencias absolutas o relativas.
Veremos dos tipos de representaciones:

Diagrama de Sectores

Está representación gráfica consiste en dividir un círculo en tantos


sectores circulares como modalidades presente el carácter cualitativo,
asignando un ángulo central a cada sector circular proporcional a la
frecuencia absoluta ni, consiguiendo de esta manera un sector con
área proporcional también a ni.

Así, los ángulos que corresponden a las cuatro modalidades de la


tabla adjunta serán:

Número de Ángulo(grados
casos )
Rehusaron cirugía 26 234°
Rehusaron
3 27°
radiación
Empeoraron por
una enfermedad 10 90°
ajena al cáncer
Otras causas 1 9°

Para obtener 234º se procede de la siguiente manera el total de


datos es 40 que corresponde al 100% de los datos, además
representara 360º de la circunferencia.

26 * 360º
Mediante una regla de 3   podemos establecer que    X   234º , continuado
40
con este proceso podemos obtener los otros datos de la tabla.

Y su representación en un diagrama de sectores será:
Diagrama de Rectángulos

Esta representación gráfica consiste en construir tantos rectángulos


como modalidades presente el carácter cualitativo en estudio, todo
ellos con base de igual amplitud. La altura se toma igual a la
frecuencia absoluta o relativa (según la distribución de frecuencias
que estemos representando), consiguiendo de esta manera
rectángulos con áreas proporcionales a las frecuencias que se quieren
representar.

La representación gráfica de la distribución de frecuencias absolutas


del ejemplo anterior será de la forma:

Histograma

Al ser esta representación una representación por áreas, hay que


distinguir si los intervalos en los que aparecen agrupados los datos
son de igual amplitud o no. Si la amplitud de los intervalos es
constante, dicha amplitud puede tomarse como unidad y al ser

Frecuencia (área) = amplitud del intervalo · altura


la altura correspondiente a cada intervalo puede tomarse igual a la
frecuencia. Si los intervalos tienen diferente amplitud, se toma
alguna de ellas como unidad (generalmente la menor) y se levantan
alturas para cada intervalo de forma que la ecuación anterior se
cumpla.

En el ejemplo de los Niveles de Colinesterasa, al tener los intervalos


igual amplitud, la representación gráfica será:

Si tuviéramos una distribución de frecuencias como la siguiente,


correspondiente a puntuaciones obtenidas en un test psicológico y en
la que los intervalos son de diferente amplitud

i f fi
0-20 8 8/70
20-30 9 9/70
30-40 12 12/70
40-45 10 10/70
45-50 9 9/70
50-60 10 10/70
60-80 8 8/70
80-100 4 4/70
Total 70 1

Tomando la amplitud 5 como unidad, deberemos levantar para el


primer intervalo una altura de 2/70 para que el área sea la frecuencia
relativa 8/70. Procediendo de la misma manera con el resto de los
intervalos obtendríamos como representación gráfica la figura
siguiente:

Obsérvese que la suma de todas las áreas debe ser 1, tanto si los
intervalos de la distribución de frecuencias relativas son o no de igual
amplitud.

Polígono de Frecuencias Acumuladas

Se utiliza para representar distribuciones de frecuencias (relativas o


absolutas) acumuladas. Consiste en representar la gráfica de una
función que una por segmentos las alturas correspondientes a los
extremos superiores de cada intervalo, tengan o no todos igual
amplitud, siendo dicha altura igual a la frecuencia acumulada, dando
una altura cero al extremo inferior del primer intervalo y siendo
constante a partir del extremo superior del último. Así, para el
ejemplo de los Niveles de Colinesterasa, el polígono de frecuencias
relativas acumuladas tendrá una representación gráfica de la forma:

También podría gustarte