Producto. Análisis de Datos. Martha Nohemy GTZ C.

3.
- ANÁLISIS DE DATOS
El análisis de datos consiste en la realización de las operaciones a las que el investigador

someterá los datos con la finalidad de alcanzar los objetivos del estudio. Todas estas
operaciones no pueden definirse de antemano de manera rígida. La recolección de datos y
ciertos análisis preliminares pueden revelar problemas y dificultades que desactualizarán la
planificación inicial del análisis de los datos. Sin embargo es importante planificar los
principales aspectos del plan de análisis en función de la verificación de cada una de las
hipótesis formuladas ya que estas definiciones condicionarán a su vez la fase de recolección
de datos.
Existen dos grandes familias de técnicas de análisis de datos:
Técnicas cualitativas: en las que los datos son presentados de manera verbal (o gráfica),
como los textos de entrevistas, las notas, los documentos…
Técnicas cuantitativas: en las que los datos se presentan en forma numérica. Estas dos
modalidades son especies radicalmente diferentes y utilizan conocimientos y técnicas
completamente diferenciadas.
Análisis Cualitativo
No existen reglas formales (al estilo de los métodos estadísticos) para la realización de
análisis cualitativos. Sin embargo estos estudios suelen realizarse en las siguientes cuatro
etapas:
1. Preparación y descripción del material bruto

2. Reducción de los datos
3. Elección y aplicación de los métodos de análisis
4. Análisis transversal de los casos estudiados (si hubiera más de uno)
1. Preparación y descripción del material bruto: Consiste en preparar la base

documental completa y fácilmente accesible. La información debe ser detectable (saber que
existe) ubicable (dónde se encuentra) y trazable (dónde y cómo se obtuvo, cuáles son sus
fuentes). Existe software que facilita algo esta tarea. La información suele ser voluminosa
por lo que en muchos casos se requiere bastante trabajo de preparación. La prueba del éxito
de esta etapa sería que un investigador ajeno a la investigación pudiera ejecutar las fases
siguientes del análisis de datos a partir de la base documental.
2. Reducción de los datos: Se intenta reducir el volumen de los datos, despejando los
componentes (las variables) de interés para la investigación (puede ser sólo enumerativo
como en el análisis de contenidos o más complejo como en el análisis semiótico). Existen
tres formas de realizar la reducción de datos:
1. La redacción de resúmenes: reduce la masa de información pero no utiliza métodos
muy específicos (no es replicable por otros investigadores). En el resumen se procura
identificar los conceptos relevantes y cómo éstos se relacionan entre sí.
2. La codificación: es el modo más desarrollado de reducción de datos. Consiste en atribuir

categorías o conceptos a porciones del material bien circunscriptas y que presentan una alta
unidad conceptual.
Un buen sistema de codificación debe ser: Inclusivo y adaptativo.
Inclusivo: exhaustivo (abarcar todas las posibilidades) y permitir que cada elemento tenga
tantos códigos como sea necesario para la investigación.
Adaptativo: debe permitir generar nuevos códigos cuando la investigación lo requiera

Abarcar varios niveles de abstracción: permitir categorías descriptivas y analíticas.
3. Inducción: consiste en identificar temas a partir de la base de datos y luego realizar

reagrupamientos a partir de estos temas.
3. Elección y aplicación de los métodos de análisis.
En esta etapa se procede a la interpretación de los datos utilizando tres posibles métodos de
análisis para detectar “patrones” a partir de los datos previamente organizados.
1. Método de emparejamiento: compara una configuración teórica predicha con una

configuración empírica observada. (Requiere Teoría previa y elección cuidadosa del caso o
casos adecuados para poner la Teoría a prueba).
2. Método iterativo: Abordaje de los datos con mínima formalización teórica y

construcción progresiva de una explicación. (Requiere conocimiento de las diferentes
teorías que pueden explicar el fenómeno y la realización de un trabajo reiterado sobre los
datos).
3. Método de análisis histórico (series temporales): Consiste en formular predicciones

sobre la evolución en el tiempo de un fenómeno. Es un caso particular del método de
emparejamiento en el que la Teoría es la predicción sobre el futuro. Los tres métodos
pueden utilizarse conjuntamente.
4. Análisis transversal. El análisis transversal apunta esencialmente a verificar si hay

replica de resultados entre varios casos o situaciones. Se agrega a las etapas precedentes
cuando los datos cualitativos recolectados se refieren a varios casos del fenómeno
(organizaciones, situaciones, individuos…). Procede por comparación dónde cada situación
es analizada de acuerdo al o los modos de análisis descritos precedentemente, de manera de
captar si los modelos o patrones observados se reproducen.
Dra. Martha Nohemy Gutiérrez Cereceres.

Análisis Cuantitativo
Son los más conocidos. En muchos casos, cuando se requieren técnicas estadísticas muy
complejas es conveniente solicitar el apoyo de especialistas (que pueden conocer mejor las
técnicas, en particular sus alcances y limitaciones). Existen dos niveles de análisis
cuantitativos: 1. Análisis descriptivos y 2. Análisis ligados a las hipótesis.
1.- Análisis descriptivos:Consiste en asignar un atributo a cada una de las variables del
modelo teórico. Los atributos pueden ser estadísticos descriptivos como la media, la
mediana, la moda o la varianza, sobre cuyas propiedades existe gran conocimiento,
experiencia y consenso, por lo que no es necesario realizar análisis de validez y fiabilidad.
Pero en estadísticos menos conocidos (como por ejemplo la covarianza) puede ser
necesario realizar este tipo de análisis. Es necesario tener definidos los criterios a seguir en
caso de porcentajes elevados de no respuesta y los eventuales sesgos que esto pueda
representar. El análisis descriptivo suele realizarse mediante la utilización de software
estadístico como el SPSS, Systat, etc.
2.- Análisis ligado a las hipótesis:Cada una de las hipótesis planteadas en el estudio debe
ser objeto de una verificación. Cuando los datos recolectados son de naturaleza cuantitativa,
esta verificación se realiza con la ayuda de herramientas estadísticas que se definen sobre la
base de 3 aspectos principales: Las hipótesis que se desea verificar. Los diseños de
investigación (experimental, quasi experimental, experimental invocado…). Distribución
estadística de las variables.
3.1 ¿QUÉ PROCEDIMIENTO SE SIGUE PARA ANALIZAR

CUANTITATIVAMENTE LOS DATOS?
Una vez que los datos sean codificados, transferido a una matriz, guardado en un archivo y
limpiado de errores, el investigador procede a investigarlos.
En la actualidad, el análisis cuantitativo de los datos se lleva a cabo por computadora u

ordenador ya casi nadie lo hace de forma manual ni aplicando formulas, en especial si hay
un volumen considerable casi nadie lo hace de forma manual ni aplicando formulas, en
especial si hay un volumen considerable de datos, por otra parte, en la mayoría de las
instituciones de educación media y superior, centros de investigación, empresas y
sindicatos se dispone de sistemas de cómputo para archivar y analizar datos. De esta
suposición parte el presente capitulo. Por ello se centra en la interpretación de los
resultados de los métodos de análisis cuantitativo y no en los procedimientos de cálculo, el
análisis de los datos se efectúa sobre la matriz de datos utilizando un programa
computacional. El proceso de análisis se esquematiza en 7 fases.

Aplica principalmente a estudios cuantitativos y cabe señalar que cada elemento de
cualquier rubro se califica del cero al diez, donde 0 implicaría el valor más bajo y 10 el más
alto.
1. Comprensión de la redacción de los objetivos de investigación.
 Comprensión de la redacción de las preguntas de investigación.
 Precisión de objetivos.
 Delimitación del problema de investigación.
Concordancia entre objetivos y preguntas de investigación.
Justificación de la investigación por al menos dos razones (desarrollo de conocimiento,
aportaciones a teorías, solución de situaciones prácticas o problemáticas sociales,
resolución de controversias, aportaciones metodológicas, etcétera).
Inclusión de datos estadísticos válidos y actuales, así como de testimonios de expertos
confiables que contribuyan a: Rubro: revisión de la literatura o marco teórico, y Rango:
máximo cero.
Elemento, indicador o factor Escala.
1. Revisión de autores destacados en el campo o campos de conocimiento en los cuales se
inserta el problema de investigación.
2. Inclusión de una o más revisiones del estado del arte y/o metaanálisis en dicho campo o
campos.
3. Utilización de bancos de datos o bibliográficos más importantes en las áreas de
conocimiento abarcadas por el problema de investigación (por lo menos uno y de ser
posible los tres más importantes).
4. Inserción de referencias recientes (dos o menos años).
5. Presentación de estudios que apoyan las hipótesis de investigación y de los que las
refutan (si es el caso).
6. Vinculación lograda entre el planteamiento y la revisión de la literatura o marco teórico.
7. Ubicación en la literatura de las deficiencias o huecos de conocimiento respecto al
planteamiento del problema.
8. Revisión del planteamiento del problema a raíz de la revisión de la literatura.
Rubro: alcance(s) de la investigación.
Rango: máximo 20, mínimo cero.
Elemento, indicador o factor Escala

1. Identificación del alcance inicial del estudio (exploratorio, descriptivo, correlacional y/o
explicativo).
2. Congruencia entre el alcance inicial y el planteamiento del problema revisado a la luz de
la revisión de la literatura.
Rubro: hipótesis. Rango: máximo 90, mínimo cero.
Elemento, indicador o factor Escala

1. Grado en que la(s) hipótesis sea(n) comprensible(s) para otros colegas o lectores.
2. Grado en que la relación planteada entre las variables sea lógica.
3. Grado en que la relación planteada entre las variables sea consistente (o congruente).
4. Precisión de las definiciones conceptuales.
5. Grado en que las definiciones conceptuales son comprensibles para otros colegas o
lectores.
6. Precisión de las definiciones operacionales.
7. Grado en que las definiciones operacionales son comprensibles para otros colegas o
lectores.
8. Congruencia de las hipótesis con los objetivos y preguntas de investigación.
9. Identificación de variables susceptibles de medir, evaluar, diagnosticar y/o analizar.
3.2 ¿QUÉ ANÁLSIS PUEDEN EFECTUARSE EN LOS DATOS?
Los análisis que vayamos a practicar a los datos dependen de tres factores:
a) El nivel de medición de las variables.
b) La manera como se hayan formulado las hipótesis.
c) El interés del investigador.

Por ejemplo, no es lo mismo los análisis que se le realizan a una variable nominal que a una
por intervalos. Usualmente el investigador busca, en primer término, describir sus datos y
posteriormente efectuar análisis estadísticos para relacionar sus variables; Es decir, realiza
análisis de estadística descriptiva para cada una de sus variables y luego describe la relación
entre éstas. Los tipos o métodos de análisis son variados y se comentarán a continuación.
Pero cabe señalar que el análisis no es indiscriminado, cada método tiene su razón de ser y
un propósito específico, no deben hacerse más análisis de los necesarios. La estadística no
es un fin en sí misma, es una herramienta para analizar los datos.


Los principales análisis que pueden efectuarse son:
 Estadística descriptiva para las variables, tomadas individualmente.
 Puntuaciones “Z”.
 Razones y tasas.
 Cálculos y razonamientos de estadística inferencial.
 Pruebas paramétricas.
 Pruebas no paramétricas.
 Análisis multivariados.
3.3. ESTADÍSTICA DESCRIPTIVA PARA CADA VARIABLE.
El concepto de Estadística es muy amplio, y sus aplicaciones directas o indirectas, muy

numerosas; resulta difícil, por ello, dar una definición. Sin embargo, la idea más adecuada
es considerar que incumbe a la Estadística la recogida, ordenación, resumen y análisis de
datos de cualquier tipo sobre colectivos, lo que significa que no tiene sentido pensar en un
dato aislado o individual como terreno de trabajo de la Estadística: es necesario, pues,
considerar un grupo de elementos (personas, animales, cosas, experimentos, etc.) a los que
se refieren los datos que se consideran. Este conjunto puede venir dado de dos formas que
condicionan toda clasificación interna de la Estadística, y que son las siguientes:
a) Población, o conjunto de todos los elementos cuyo estudio nos interesa. Si se dispone de
datos de una o más variables sobre la población completa, o se puede acceder a ellos, la
Estadística tendrá como misión que la recogida sea adecuada, se ordenen, se estructuren y
se resuman dichos datos para su mejor comprensión, es decir, que se describan. Ello nos
llevará a hablar de Estadística Descriptiva. Por ejemplo, el conjunto de los varones mayores
de 65 años y residentes en una provincia sería una población.
b) Muestra, o conjunto de elementos de los que efectivamente se dispone de datos, y que

es una parte (a menudo pequeña) de la población. Cuando no se puede acceder a los datos
de toda la población, que es lo más frecuente, y se debe trabajar con sólo los de la muestra,
a la simple descripción de los datos se añade el interés por valorar hasta qué punto los
resultados de la muestra son extrapolables o generalizables a la población; en consecuencia,
será necesario utilizar no sólo las técnicas de la Estadística Descriptiva, siempre obligadas
en todo caso para la comprensión de los resultados, sino también otras que permiten inferir
afirmaciones sobre la población a partir de los datos de la muestra y que constituyen la
Estadística Inferencial o Inferencia Estadística. Por ejemplo, el grupo de los varones
mayores de 65 años y residentes en una provincia que son usuarios de bibliotecas públicas
sería una muestra de la población citada en el párrafo anterior (otra cosa es que la muestra
fuese o no representativa del conjunto de tal población).
Los elementos fundamentales de la descripción de una variable son los que siguen en los
apartados siguientes, que se pueden resumir de esta forma:
- En primer lugar, se hará hincapié en que lo que se estudia son en realidad las variables,
lo que nos obligará a distinguir los tipos básicos de ellas, porque tienen un tratamiento
distinto en todo lo que sigue.

- Las distribuciones de frecuencia son necesarias en el paso siguiente para expresar los
resultados obtenidos mediante tablas estadísticas.
- Las gráficas estadísticas dan una información similar a la de las tablas, pero de forma
más directa; de ellas trata otro apartado.
- Finalmente, el resumen de la información se realiza mediante las medidas de
centralización, dispersión y posición.
Tipos de variables
Lo que se estudia en una muestra o población es una serie de variables en cada individuo o
elemento. Lo usual es considerar primero las variables una a una, sin plantearse problemas
de asociación entre ellas, por lo que podemos pensar sólo en una variable de cuyos datos
imaginamos disponer en una muestra (el número de datos es el llamado Tamaño de
Muestra, para el que habitualmente se utiliza la letra n). Los tipos de variables, y
consecuentemente las clases de datos que se pueden encontrar, son básicamente las
siguientes:
1) Variables cualitativas, también llamadas caracteres, variables categóricas o atributos,

que son aquellas que no necesitan números para expresarse; cada forma particular en que
pueden presentarse se denomina modalidad. Por ejemplo, el sexo de una persona es una
variable cualitativa y “varón” o “mujer” son sus únicas modalidades. En consecuencia, para
una variable cualitativa, cada dato no es más que la información de que un determinado
elemento de la muestra presenta una determinada modalidad. Entre las variables
cualitativas cabe distinguir:
1.1) las variables cualitativas ordinales, que son las que teniendo más de dos modalidades
tienen establecido un orden natural entre las mismas, de forma que sus modalidades se
enuncian siguiendo una cierta ordenación ascendente o descendente y no de otra manera.
Por ejemplo, la variable “gravedad del pronóstico de lesiones traumáticas” podría tener
como orden natural entre sus modalidades “leve”, “moderado”, “grave”, etc., pero nunca
diríamos “grave”, “leve”, “moderado”, etc. en este orden.
1.2) las variables cualitativas puras, que no tienen un orden natural preestablecido entre
sus modalidades, y podemos utilizar cualquier ordenación para ellas, como por ejemplo el
grupo sanguíneo o la nacionalidad de una persona (no hay que confundirse con
ordenaciones arbitrarias, como el orden alfabético, pensando que convierten en ordinales a
las variables, ya que no significan una verdadera ordenación natural de las modalidades).
1.3) las variables dicotómicas, que tienen sólo dos modalidades posibles, y en las que ni
siquiera tiene sentido plantearse si son o no ordinales; el hecho de tener sólo dos
modalidades les confiere características especiales. Cabe citar como ejemplos el ya citado
del sexo, el pertenecer o no a una asociación, o en general cualquier situación que sólo
admita una respuesta “sí o no”.
2) Variables cuantitativas o numéricas, que son aquellas que necesitan números para ser
expresadas, como la edad de alguien o el número de páginas de un libro. Cada forma
particular en que se presentan es un valor numérico, y un dato es en estas variables un

número que refleja el valor de la variable en un elemento de la muestra. También pueden
distinguirse al menos dos subtipos:
2.1) las variables cuantitativas discretas, cuyos valores son aislados (habitualmente
números enteros), de forma que pueden enumerarse y existen valores “consecutivos” entre
los que no puede haber otro; por ejemplo, un resumen puede tener 349 ó 350, pero no
349.17 palabras.
2.2) las variables cuantitativas continuas, que pueden tomar cualquier valor numérico,
entero o decimal, de forma que teóricamente entre dos valores posibles siempre se pueden
encontrar otros (entre 65.3 Kg. y 65.4 Kg. de peso siempre está 65.37 Kg., por ejemplo),
aunque en la práctica el número de cifras decimales está limitado y la variable se maneja en
cierto modo como discreta.
La distinción entre los distintos tipos de variables es importante porque las técnicas a
aplicar a cada uno pueden ser muy diferentes, y muchos parámetros y cálculos tienen
sentido para las variables de un tipo y no para las de otro. Hay que tener en cuenta también
que una misma variable de la realidad puede venir expresada de diversas maneras, incluso
como cualitativa o como cuantitativa, dependiendo de que usemos valores numéricos o sólo
modalidades; piénsese, por ejemplo, en que la estatura puede darse en centímetros (variable
cuantitativa continua) o diciendo de alguien que es “bajo”, “mediano” o “alto” (variable
cualitativa ordinal). En estos casos, debe quedar claro que la variable es en esencia
cuantitativa y que su tratamiento como cualitativa supone una pérdida de calidad en la
información, sólo admisible si no podemos disponer de los datos numéricos.
Distribuciones de frecuencia y tablas estadísticas.
Sea cual sea el tipo de variable, lo que se tiene como información de una variable en una
muestra es un número finito n de datos, es decir, de valores o de anotaciones sobre qué
modalidad (cualitativas) o qué valor (cuantitativas) tiene cada elemento de la muestra; a
este conjunto de datos se le llama distribución y, salvo cuando el tamaño de muestra n sea
muy pequeño, se debe resumir para que el lector pueda comprender bien los resultados.
Un primer y obligado paso de ese resumen de datos es el simple recuento de las

repeticiones de un mismo valor o modalidad; ello nos conduce al concepto fundamental de
frecuencia, con dos enfoques:
- Frecuencia absoluta es el número de veces que una modalidad o un valor de una variable
aparece entre los datos de una muestra; si en una muestra de la variable “nivel de estudios”
aparecen 148 personas con nivel de estudios “superiores”, diremos que 148 es la frecuencia
absoluta de la modalidad “superiores”. Naturalmente, el número total de datos es n y, por
tanto, la suma de las frecuencias absolutas de todas las modalidades o valores debe ser igual
al tamaño muestral n.
- Frecuencia relativa de una modalidad o valor de una variable es su frecuencia absoluta

dividida entre el tamaño muestral, es decir, la proporción de veces que aparece esa
modalidad o valor entre todos los datos de la muestra; si la frecuencia absoluta 148 del

ejemplo anterior corresponde a una muestra de 2000 personas, diremos que la frecuencia
relativa de la modalidad AB es 148/2000 = 0.074. Es claro que la suma de las frecuencias
relativas de todas las modalidades o valores debe ser 1, ya que las absolutas suman n y
estamos dividiendo entre n. Es muy habitual expresar las frecuencias relativas como
porcentajes (multiplicándolas por cien) y entonces la frecuencia relativa del ejemplo sería
7.4 % y la condición de la suma sería que deben sumar 100 %, lo que se entiende mejor (la
frecuencia relativa es la parte del total de datos que corresponde a cada valor o modalidad).
Las frecuencias absolutas y relativas son aplicables a cualquier tipo de variable, y de ahí su
importancia; además, pese a su simplicidad, dan lugar a conceptos muy importantes, como
el de proporción, y son la base sobre la que se construye cualquier resumen de los datos.
Gráficas Estadísticas
Las distribuciones de frecuencias se presentan en tablas como las anteriores, o bien en

gráficas. La representación gráfica se utiliza para facilitar al lector la comprensión de los
resultados, pero no añade ninguna información sobre la que contendría una tabla de
frecuencias; el objetivo de las gráficas es que la información “impacte” directamente al
lector y que se exprese el “perfil” de la distribución, pero no debe olvidarse el rigor en aras
de la estética: las gráficas deben reflejar fielmente lo que tratan de representar,
fundamentalmente las frecuencias de cada modalidad o valor. Por ello la regla fundamental
para la construcción de una gráfica es que:Las áreas (o longitudes) han de ser
proporcionales a las frecuencias, condición inexcusable para que una gráfica sea correcta.
Además, con carácter general puede recomendarse que el pie de la gráfica explique
convenientemente de qué se trata, que no se intente representar demasiada información en
una sola gráfica, que los detalles sean lo suficientemente visibles, etc.
Existen diversos tipos de gráficas, cada uno de ellos adecuado a un cierto tipo de variables,
por lo que podemos clasificar las gráficas atendiendo a estos tipos.
Así, para caracteres o variables cualitativas se pueden mencionar:
- El diagrama de barras o rectángulos, consistente en asociar a cada modalidad de la

variable un rectángulo cuya superficie refleje su frecuencia: las modalidades se suelen
situar en horizontal y la escala de frecuencias absolutas o relativas en vertical. Si las
bases de los rectángulos se dibujan todas iguales, para cumplir la regla fundamental
antes citada basta tomar como alturas de los rectángulos directamente las frecuencias,
sin mayor complicación (el rectángulo de una modalidad con frecuencia 7 tendrá altura
7 y así con todas). Los rectángulos suelen representarse separados en este tipo de
gráficas, que también pueden aparecer con las barras horizontales y las modalidades
situadas verticalmente.
- El diagrama de sectores, que refleja como sectores de un círculo las frecuencias de

cada modalidad. Como el radio es constante en un círculo, para cumplir la regla
fundamental de proporcionalidad basta hacer al ángulo de cada sector proporcional a la
frecuencia, lo que se consigue multiplicando los 360º del círculo por la frecuencia

relativa de cada modalidad. Este tipo de gráficas es muy útil para comparar los
resultados de una variable cualitativa en dos o más muestras.
Hay otras gráficas menos frecuentes pero igualmente válidas para variables cualitativas;
cabe citar los pictogramas, en los que se representa una misma figura para cada modalidad
pero con tamaño proporcional a las frecuencias (pictograma por extensión) o una misma
figura repetida tantas veces como sea necesario para reflejar la frecuencia de cada
modalidad (pictograma por repetición), los cartogramas, en los que se representa cada
modalidad sobre puntos o regiones de un mapa, o los diagramas de superficie, en los que se
divide una figura geométrica, generalmente un rectángulo, en trozos proporcionales a las
frecuencias.
Por su parte, para variables cuantitativas los tipos de gráficas más importantes son los
siguientes:
- Para variables discretas, el diagrama de segmentos. Las variables discretas toman

valores aislados, como puntos sueltos, en la “recta de los números”; ésta suele
representarse horizontalmente con los valores negativos a la izquierda del cero y los
positivos a la derecha; por esos puntos sueltos, la gráfica adecuada para las variables
discretas es el diagrama de segmentos, en el que sobre cada valor de la variable se
coloca verticalmente un segmento que tiene una longitud proporcional a su frecuencia;
así se consigue que la abscisa (horizontal) refleje los valores y que la ordenada
(vertical) exprese las frecuencias de la variable. Es lo mismo usar para ello frecuencias
absolutas o relativas, ya que las dos clases de frecuencias son a su vez proporcionales
por la propia definición de frecuencia relativa; por ello podemos hacer el diagrama con
frecuencias absolutas o relativas, a voluntad. Junto con el diagrama de segmentos,
puede dibujarse una línea quebrada que una los extremos superiores de los segmentos,
que se llama polígono de frecuencias; a veces este polígono (que matemáticamente no
es tal, sino una “poligonal”) se representa sólo, como si se hubieran borrado los
segmentos verticales. El polígono de frecuencias también puede usarse junto con:
- El histograma o histograma de rectángulos, que es la gráfica adecuada para

representarvariables cuantitativas continuas. Estas variables cubren teóricamente con
sus valores a la recta de los números reales, o al menos de un cierto intervalo, de
manera que “infinitamente” junto a un valor se encontraría otro y no se producen
“saltos” entre ellos. En la práctica, esto se traduce en que casi siempre se maneja un
gran número de valores distintos y ello hace poco adecuado para estas variables un
diagrama de segmentos; por ello, y para respetar la continuidad de la variable, lo que se
hace es agrupar los valores en intervalos y gráficamente se representan rectángulos
yuxtapuestos cuyas bases descansan sobre la horizontal y cuyas alturas son tales que el
área de cada rectángulo sea proporcional a la frecuencia de cada intervalo. A veces
estos histogramas son llamados erróneamente diagramas de barras.
Parámetros de una distribución
Se trata de resumir más la información de una tabla o de una gráfica, y de encontrar algunos
valores lo más simples posible que nos permitan dar información sobre la muestra o
comparar dos muestras entre sí. Para hacer ese resumen o información de los datos hay tres
enfoques fundamentales:
- En primer lugar, dar un valor lo más representativo posible de todos los valores de la
muestra, que no sea, por tanto, ni de los más bajos ni de los más altos. Así se crean las
medidas o parámetros de centralización, tendencia central o posición central.
- En segundo lugar, y como complemento a lo anterior, dar una valoración de hasta qué
punto los datos se parecen entre sí o bien están muy diferenciados (dispersos); además,
cuanto más se parezcan entre sí los valores que nos salen, más se parecerán al
representante o parámetro de centralización que elijamos, y mejor sería éste. Por todo
esto conviene medir las diferencias internas de los datos mediante las medidas o
parámetros de dispersión.
- Finalmente, en tercer lugar, se puede también tratar de medir qué valor supera a una
cierta porción o proporción de valores, o lo que es lo mismo, tratar de informar sobre la
distribución de la variable diciendo a cuántos de sus valores supera uno dado. Para ello
se usan los cuantiles como medidas ó parámetros de posición.
Definiremos a continuación los más importantes entre todos los parámetros de estos tres
tipos y para ilustrar su cálculo usaremos el ejemplo siguiente, donde los datos son el
número de hermanos (excluido él mismo) de una muestra de 13 niños; presentamos los
datos ordenados de menor a mayor para mejor comprensión, pero en principio los datos nos
vendrían en cualquier orden. Supongamos que son los siguientes:
0 0 0 0 1 1 1 2 2 3 4 5 7
Vamos a definir ahora las medidas más importantes:
Primer grupo: Parámetros de Centralización.
Entre los parámetros de centralización, también llamados de tendencia central o de posición

central, tres son las definiciones destacables:
La moda: es el valor de la variable que tiene mayor frecuencia en la muestra, es decir, el

que se repite más (moda se asocia con lo más frecuente). En nuestro ejemplo es el valor 0,
que tiene una frecuencia absoluta de cuatro, que es la más grande. La moda puede definirse
para cualquier tipo de variables. También se puede hablar de moda local o secundaria, que
sería cualquier valor más frecuente que sus adyacentes, es decir, con más frecuencia que la
que tengan el anterior y el posterior, lo que requiere al menos orden en los datos; no hay
ninguna moda secundaria en nuestro ejemplo.
La mediana: es el valor que está en el centro de la distribución, es decir, el valor que

supera a la mitad de los de la muestra y se ve superado por la otra mitad (salvo empates en
ambos casos); se calcula buscando el valor de la muestra que ocupa el lugar (n+1)/2, con
los datos ordenados. En nuestro ejemplo es el valor 1, que corresponde al séptimo lugar
(que deja seis por debajo y seis por encima). La mediana no puede definirse para variables
cualitativas puras, sino sólo para ordinales y cuantitativas, ya que necesita un orden en los
datos.
La media o media aritmética: es el centro de gravedad de la distribución, o fiel de la

balanza entre todos los datos. Se calcula sumando los datos y dividiendo entre el tamaño de
la muestra, esto es, entre el número de datos. En nuestro ejemplo, la suma de los datos es 26
y el número de ellos 13, de forma que la media vale 26/13 = 2.00 ; por su propia naturaleza,
la media sólo es definible para variables cuantitativas, ya que si no hay números no se
puede sumar. Es la más importante de las medidas de centralización y en general de todos
los parámetros estadísticos y al ser centro de gravedad tiene la propiedad de que si hallamos
las diferencias de cada dato con ella (llamadas desviaciones), la suma de estas diferencias o
desviaciones es SIEMPRE CERO para cualquier distribución de cualquier variable, lo que
resulta clave para la definición de las medidas de dispersión. En nuestro ejemplo, con
media de 2, las desviaciones (que se obtienen restando cada dato menos la media) son:
-2 -2 -2 -2 -1 -1 -1 0 0 +1 +2 +3 +5
que como puede calcularse suman cero (las negativas, que proceden de datos inferiores a la
media, suman –11, y las positivas, que proceden de datos superiores a la media, suman +11,
de modo que todas suman 0).
Existen otras medidas de centralización de uso menos frecuente, como la media ponderada
(que es una media aritmética con distintos pesos de importancia para los distintos datos), la
media geométrica (raíz enésima del producto de los datos) o la media armónica (la inversa
de la media aritmética de los inversos de los datos).
Segundo grupo: Parámetros de Dispersión.
Por su parte, las medidas de dispersión se basan en la idea de medir las diferencias entre
unos datos y otros midiendo las diferencias de cada dato con la media, esto es, usando las
desviaciones; sin embargo, como éstas siempre suman cero, es preciso considerar su valor
absoluto o su cuadrado para que ello no ocurra (serían ya todas positivas). Las más
importantes medidas de dispersión son las siguientes:
La desviación absoluta media: es la media aritmética de los valores absolutos de las

desviaciones, por lo que se calcula tomando como positivas todas las desviaciones,
sumándolas y dividiendo entre n; en nuestro ejemplo la suma de los valores absolutos (no
confundir con frecuencias absolutas, que no tiene nada que ver) sale 22 y por tanto la
desviación absoluta media vale 22/13 = 1.69 ; el tener que usar valores absolutos complica
los desarrollos matemáticos con este parámetro y por eso se usa poco, pese a su valor
intuitivo. Es mucho más importante:
La varianza: es la media aritmética de los cuadrados de las desviaciones, por lo que se

calcula elevando al cuadrado cada desviación, sumando esos cuadrados y dividiendo entre
n; en nuestro ejemplo resulta 58 la suma de cuadrados de las desviaciones, con lo que la
varianza es 58/13 = 4.46 ; el cuadrado es matemáticamente mucho más manejable que el
valor absoluto, lo que hace de la varianza la reina de los parámetros de dispersión desde un
punto de vista teórico. Sin embargo, el hecho de que carezca de interpretación intuitiva y
que sus unidades sean cuadradas (¿hermanos cuadrados?) hace que es la práctica se use
mucho más su raíz cuadrada, la desviacionstandard o desviaciontipica, con mucho la más
usada de las medidas de dispersión, y que en nuestro ejemplo valdría 2.11, con lo que el
informe más habitual para nuestros datos daría una media de 2.00 y la desviación típica de
2.11 como parámetros más informativos.
Por motivos difíciles de explicar aquí, relacionados con cuestiones de inferencia estadística,
es más recomendable usar el denominador n-1 en lugar del n al calcular la varianza y la
desviación típica de una muestra, quedándose el n para el caso en que se conoce toda la
población; en nuestro ejemplo, pues, sería mejor calcular como varianza 58/12 = 4.83 y
como desviación standard su raíz cuadrada 2.20 (estos últimos serían la varianza muestral o
quasivarianza y la desviación típica muestral y serían los utilizados en la práctica, aunque
la definición teórica sea con denominador n por ser la varianza una "media"). A efectos
comparativos entre distintas muestras e incluso entre distintas variables, se define:
El coeficiente de variación, que es el cociente, a menudo expresado en tanto por ciento,

entre la desviación típica y la media de una distribución. Es una especie de desviación
típica “relativa”, y en nuestro ejemplo valdría 2.2011/2.00 = 1.100055 ó bien 11005.05%
(nótese que no es un verdadero porcentaje, porque puede valer más del 100%); este
resultado indicaría mucha dispersión en los datos del ejemplo en relación con la media.
Además de las citadas, la más simple de las medidas de dispersión es el rango, recorrido ó
amplitud, que es la diferencia entre el valor máximo y el mínimo de la muestra, y que
indica qué extensión de la recta de los números ocupan los datos de nuestra muestra.
Tercer grupo: Cuantiles o parámetros de posición
Los cuantiles completan el cuadro de los parámetros de una distribución. En cierto modo
pueden ser considerados como medidas de centralización (de hecho la mediana es uno de
ellos) y también como medidas de dispersión (algunas pueden construirse a partir de ellos)
pero en realidad son medidas de posición. Se define el cuantil p como aquel valor de la
variable (que puede estar o no en la muestra) que supera al p% de los datos de la muestra;
resultan útiles sólo cuando la muestra es numerosa y permiten saber en que “posición” se
encuentra un valor dado con respecto al conjunto de una muestra o población. Se definen
entre los más importantes:
Los cuartiles, que definen las cuartas partes de la muestra mediante tres “cortes”: el primer
cuartil deja por debajo al 25% de la distribución, el segundo coincide con la mediana y el
tercero deja por debajo al 75% de la distribución. No tienen mucho sentido en muestras
pequeñas, pero en nuestro ejemplo valdrían respectivamente 0, 1 y 3.5 (que están situados
en las posiciones “tercera y media”, séptima y “décima y media” de los datos ordenados).

Los deciles, que dan nueve cortes para definir de diez en diez por ciento los valores de la
distribución; así, el primer decil deja por debajo una décima parte de la distribución, el
segundo dos décimas partes, etc., hasta nueve deciles.
Los percentiles, que son como los deciles pero de uno en uno por ciento, y por tanto son
noventa y nueve; por ejemplo, el percentil 37 deja por debajo al 37% de la distribución, y
está claro que no tienen sentido en muestras tan pequeñas como la de nuestro ejemplo, ya
que trece elementos no se pueden “partir” en cien partes.
Todos los cuantiles son definibles sobre variables cuantitativas o sobre cualitativas
ordinales, porque requieren siempre que los datos estén ordenados.
Los cuantiles más próximos al percentil 50, como la propia mediana o los cercanos a ella,
pueden considerarse como parámetros de centralización y sin embargo los más lejanos al
centro ayudan a medir la dispersión; por ejemplo, si restamos el tercer cuartil menos el
primero obtenemos el rango intercuartílico, quees una medida de dispersión. Con el rango
intercuartílico estamos midiendo la extensión que nos cubre la mitad central de nuestros
datos; recuérdese que el rango era la extensión cubierta por toda la muestra ordenada (se
define como máximo menos mínimo), mientras que el rango intercuartilico es la extensión
cubierta por la mitad central de los datos ordenados, excluyendo la cuarta parte inicial (los
que son inferiores al primer cuartil) y la cuarta parte final (los que son superiores al tercer
cuartil).
3.3.1. PUNTUACIONES Z.
Clases de puntuaciones
Las medidas directas que se efectúan sobre una muestra no siempre informan claramente de
algunos hechos o propiedades que permanecen ocultos, y que un cambio de escala o el uso
de una medida derivada puede destacarlos. Este es el objeto de esta sesión teórica: el uso de
medidas derivadas e índices que faciliten el conocimiento de hechos no percibidos en la
medida inicial.
Medidas o puntuaciones típicas
Medida directa.
Llamaremos medida directa en cualquier estudio o experimento, a aquella que se ha

obtenido directamente sobre los objetos, individuos o entidades con los instrumentos
usuales de medida. Así, son medidas directas: la estatura en cm., la edad en años, la
producción de una fábrica en toneladas, etc.
Sobre esta medida directa, mediante operaciones matemáticas o de ordenación, se pueden

establecer otras medidas derivadas que informen del mismo fenómeno destacando otros
aspectos. Por ejemplo: la producción de la fábrica en pesetas constantes de 1990, la estatura
de una persona en comparación con la del año pasado, la edad comparada con el resto de su

colectivo, etc. La medida directa tiene el defecto de no informarnos sobre la posición o
nivel que ese dato tiene dentro de su grupo.
Medida diferencial.
Dada una medida directa X, llamaremos medida diferencial x a su diferencia con la media
del grupo.A suma de las medidas diferenciales será igual a cero y que, además, unas serán
positivas y otras negativas La consecuencia es que la media de las medidas diferenciales
siempre es cero, y se puede demostrar que la desviación típica s de las medidas
diferenciales es la misma que la de las medidas directas.
La medida diferencial nos informa sobre lo cerca o lejos que se encuentra un dato respecto
a la media. Es, por tanto, representativa de la situación del individuo dentro de su grupo,
pero no nos permite evaluar si esa distancia es importante o no. En realidad, es una simple
traslación.
Medida típica Z
Si se divide una medida diferencial entre la desviación típica del grupo, se obtiene la
medida o puntuación típica Z: Esta medida es muy importante, pues permite comparar dos
colectivos distintos, debido a la siguiente propiedad: La media de las puntuaciones Z
siempre es cero y su desviación típica siempre es 1.
De esta forma, mediante Z, las medidas obtenidas por cualquier sujeto en variables
diferentes, siempre tendrán media 0 y desviación 1, con lo que Z mide el verdadero nivel
dentro de cada grupo, al haber eliminado los parámetros de centro y dispersión. Es como si
dos conjuntos los redujéramos a la misma escala para poderlos comparar.
Según la desigualdad de Tchebychev, las medidas Z comprendidas entre -2 y 2 suponen

como mínimo el 75% de los datos. Así, puntuaciones superiores a 2 o inferiores a -2 son
extraordinarias, en el sentido de que lo probable es lo contrario. De igual forma, entre -3 y 3
están contenidos al menos el 89% de los datos. Puntuaciones más alejadas que 3 y -3 se
consideran improbables. Otras medidas Hemos visto que la puntuación Z suele estar entre
-3 y 3 y, por tanto, puede ser positiva o negativa y, en general, con decimales. Para
simplificar su lectura, especialmente en Psicología y Ciencias de la Educación, se han
introducido otras medias convencionales.
Las más importantes son: Escala T La puntuación T se obtiene multiplicando Z por 10 y

después sumando 50: Lo normal es que una puntuación T oscile entre 20 y 80 puntos. Las
medidas más extremas son improbables. Cociente intelectual Independientemente de su
definición, el cociente intelectual (y escalas similares) está construido con la fórmula Por
tanto, los cocientes “normales” estarán entre 55 y 145 Otras escalas La escala S tiene como
fórmula S = 50 + 20Z La escala D equivale a D = 5 + 2Z.
3.3.2 RAZONES Y TASAS
Cifras absolutas y frecuencias relativas

 Las estadística que resultan de las tabulaciones de diferentes tipos de datos,
proporcionan números absolutos , los cuales en salud pública son valiosos para
estimar la cantidad de recursos necesarios para otorgar una atención, etc..
 En medicina suele trabajarse con diferentes tipos de fracciones que permiten
cuantificar correctamente el impacto de una enfermedad.
 De allí que sean las frecuencias relativas las que tienen una mayor utilidad, ya que
tienen la ventaja de facilitar la presentación de las relaciones que existen entre dos o
más datos.
 De estas últimas se construyen las tasas, proporciones, razones y porcentajes.
 Las razones y proporciones son indicadores adimensionales.
RAZONES
 En términos general o amplio una razón es el resultado de dividir una cantidad con
otra.
R = a / b.
 Se define como el cociente de dos variables, los valores del numerador y del
denominador son independientes, ninguno está contenido en el otro es decir no
tienen elementos comunes.
 El numerador con el denominador son disjuntos, no se interceptan.
 Indica cuantas veces sucede el hecho que está en el numerador con respecto al
hecho que está en el denominador.
 Ejemplo: Razón de masculinidad = Nº de hombres / Nº de mujeres.Indica cuantos
hombres hay por cada mujer.
PROPORCIONES
 Se define como el cociente que resulta de dividir un subconjunto por el conjunto

total en que está incluido.
 O lo que es lo mismo, es un cociente en el que el numerador está incluido en el
denominador.
P = a / (a+b).
 El resultado expresa la importancia relativa que el dato del numerador tienen con
respecto al del denominador.
 El valor de una proporción puede variar entre 0 y 1.
 El valor suele multiplicarse por una constante (100,1000, etc.) y expresarse como
porcentaje, por mil, etc., para facilitar la interpretación del cociente obtenido.
TASAS
1. Se define como el cociente que resulta de dividir un número de acontecimientos

sucedidos durante un periodo de tiempo (un flujo) por la población media existente
durante ese periodo.
Tasa= Nº de personas afectadas por un hecho X constante.
Nº total de personas expuestas al hecho.
2. Las tasas expresan la dinámica de un suceso en una población a lo largo del tiempo.

3. El numerador expresa el número de eventos acaecidos durante un periodo en un
número determinado de sujetos observados.
4. Es una proporción que mide riesgo.
( tasa de mortalidad=riesgo de morir).
3.4 ESTADÍSTICA INFERENCIAL: DE LA MUESTRA A LA POBLACIÓN
El objetivo de la estadística es hacer inferencia con respecto a la población basándose en la

información contenida en una muestra. Las poblaciones se describen mediante medidas
numéricas denominadas parámetros y el objetivo de la mayoría de las investigaciones
estadísticas es hacer inferencia con respecto a uno o más parámetros de la población. El
proceso de obtener un resultado observado de un fenómeno físico es denominado un
experimento.
Suponga que el resultado de un experimento es una variable aleatoria x, y f (x,θ ) representa

la función de densidad la cual refleja la distribución de las medidas de los individuos en la
población. Aunque el experimento no permite especificar completamente a f (x,θ ) , y esto
es posible si se puede asumir que f (x,θ ) es un miembro de alguna familia conocida de
distribución y que θ es un parámetro no conocido tal como la media o la varianza de la
población.
El objetivo de la estimación puntual es asignar un valor apropiado a θ basado sobre las

observaciones de la población, es decir, se asume que un conjunto de n variables
independientes n x , x ,..., x 1 2 cada una con f (x,θ ) observada de un conjunto de datos n
x , x ,..., x 1 2 el cual puede representarse como ( , ,..., : ) ( , ) ( , )... ( , ) f x1 x2 xn θ = f x1
θ f x2 θ f xn θ.
Se asume que la distribución de la población de interés puede ser representada por un

miembro de alguna familia especifica conocida f (x,θ ), indexada por el parámetro θ . En
algunos casos el parámetro puede ser un vector y se denota por Θ.
Se denotara por Ω como el espacio paramétrico que denota el conjunto de todos los
posibles valores que el parámetro θ puede asumir. Si Θ es un vector entonces Ω será un
subconjunto del espacio euclidiano de la misma dimensión y ladimensión de Ω va a
corresponder al número de parámetros reales no conocidos. Se asume que n x , x ,..., x 1 2
es una muestra aleatoria de f (x,θ ) y que τ (θ ) es una función de θ.
Definición
Un estadístico ( , ... ) 1 2 n T = ι x xx que es usada para estimar el valor de τ (θ ) es

denominado un estimador de τ (θ ) y un valor observado del estadístico ( , ,..., ) 1 2 n t = ι x
xx es denominado una estimación de τ (θ ).
Equivalentemente se puede abusar y decir que un estimador es una regla que establece
cómo calcular una estimación basada en las mediciones contenidas en una muestra. Es
posible obtener varios estimadores (reglas para la estimación) diferentes para un mismo
parámetro poblacional. Esto nos lleva a tratar de definir cuáles son buenos o malos en la
aproximación.
Teorema Sea c una constante entonces E(c) = c

Teorema Sean g (Y1 Y2) una función de las variables aleatorias Y1 ,Y2 , y sea c una
constante. Entonces E (cg (Y1,Y2))=cE (g(Y1, Y2 ))
1. Poblaciones y muestras
 La estadística consiste en acumular y analizar datos
 Los objetos de los que uno toma medidas para generar datos son los sujetos del
estudio: pueden ser individuos, familias, países, ciudades, empresas, instituciones...
 La población: conjunto de sujetos sobre el que el estudio quiere saber algo
 Una muestra: es un subconjunto de la población sobre el que el estudio toma datos.
 A veces se estudian poblaciones enteras: ◆Elecciones ◆Censos ◆Números
“pequeños”: los alumnos de una facultad, los habitantes de una ciudad, los
miembros de una asociación...
 Pero otras muchas veces estudiamos muestras
¿Por qué estudiar muestras y no poblaciones?
 Razones económicas
 Tiempo: la variable cambiaría (ejemplo: paro)
 El estudio altera el objeto (investigaciones sanitarias o industriales, biológicas...)
 En todos esos casos: muestra
Otra razón para estudiar muestras: existen poblaciones “virtuales” o “conceptuales” que no
podemos estudiar.
 Poblaciones realmente existentes y claramente definidas: “todos los adultos

españoles”
 Poblaciones conceptuales:
★Todas las personas que ahora o en el futuro puedan padecer insomnio (un estudio
de fármacos)
★Todos los coches que se puedan fabricar de un determinado modelo (en estudio
de consumos)
★Todos los estudiantes de universidad actuales y futuros (en un estudio sobre
efectos de un método de estudio)
Por todas esas razones: hay que estudiar una muestra, no una población. Ejemplo: encuestas
de opinión pública:
 La población: el conjunto de los adultos españoles (o franceses, o toledanos, o

andaluces...)
 La muestra: 1.000 personas entrevistadas por la encuesta.
Estadística descriptiva: resumir los datos de la muestra.

Estadística inferencial: de la muestra a la población.
 Estimador (o estadístico): número que resume información sobre la muestra (Por

ejemplo: porcentaje de los encuestados a favor de autorizar la eutanasia en ciertos
casos).
 Los estimadores los obtenemos usando la estadística descriptiva, a partir de los
datos de la muestra.
 Parámetro: número que resume información sobre la población (Por ejemplo:
porcentaje de los españoles a favor de autorizar la eutanasia en ciertos casos).
 Con la estadística inferencial estimamos, a partir de los estimadores, que son
conocidos, los parámetros, que son desconocidos.
Tipos de muestras
 Preocupación principal al hacer una muestra: que sea “representativa” de la
población.
 Que sea una “buena” muestra, que se “parezca” a la población.
 Los resultados serán “sensatos” (los parámetros se parecerán a los estadísticos).
 Si seguimos ciertas reglas: podremos calcular matemáticamente, a partir del
estadístico, el valor aproximado del parámetro.
Muestreo aleatorio simple
 Mecanismo ideal para la mejor muestra posible: el muestreo aleatorio simple,
muestreo en el que.
 Cada elemento de la población tiene la misma probabilidad de ser escogido.
 Todas las posibles muestras del tamaño muestral escogido (n) tienen la misma
probabilidad de ser seleccionadas.
Ejemplo teórico:
 Todos los nombres en una lista
 Papeleta o bola por cada nombre
 Mezcla y extracción de las n bolas o papeletas
Cumple las dos condiciones.
En la práctica:
 Numerar todos los sujetos de la población
 Obtener lista de números aleatorios
 En libros: ejemplo, Apéndice B, Tabla 6
 Por ordenador (Excel)
 www.random.org
Propiedades:
 Cada número elegido separadamente
 Igual probabilidad de ser 0, 1, 2, ... 9

 Ninguna influencia de unos números en otros
Escoger los n primeros números aleatorios.
Ejemplo con EXCEL
 =aleatorio.entre(número;número) da un número aleatorio entre los valores mínimo y
máximo indicados.
 Si número de sujetos en población es 3000 y quiero 30 casos en la muestra ○ 30
celdas =aleatorio.entre(1;3000).
 Si población=40.000.000 y necesito 1.000 casos para la muestra ○ 1.000 celdas
=aleatorio.entre(1;40000000)
 Este es el mecanismo ideal.
 Estadística inferencial: se basa en este modelo ideal de muestreo aleatorio simple.
 Casi todos los métodos de inferencia: suponen que la muestra se ha obtenido por
este método.
 En la vida real: pocas veces aplicamos este método estrictamente.
 Aplicamos más habitualmente otros métodos de muestreo probabilísticos.
Otros muestreos probabilísticos
Métodos de muestreo probabilístico: aquellos en los que es posible calcular la probabilidad
de aparición de cada una de las muestras posibles.
El muestreo aleatorio simple es un muestreo probabilístico.
Otros métodos probabilísticos:
 Todos los sujetos igual probabilidad de formar parte de la muestra.
 No todas las muestras posibles (combinaciones de n sujetos) tienen la misma
probabilidad.
Muestreo sistemático
 Población ordenada en lista numerada
 Dividimos el tamaño de la población (N) por el tamaño muestral (n): obtenemos el
factor de elevación. Ejemplo: población de 25.000, muestra de 500. Factor de
elevación= 50. Escogemos al azar (números aleatorios) un sujeto entre el primero y
el que ocupa el puesto igual al factor de elevación. Ejemplo: entre los 50 primeros,
el 24.
 Sumamos a ese número el factor de elevación hasta completar la muestra: 24, 74,
124, 174, 224, 274...
Muestreo sistemático
 Es más sencillo que muestreo aleatorio simple.
 Pero normalmente produce un resultado igual de bueno: se pueden usar los mismos
métodos de estadística inferencial.
 Todos los sujetos igual probabilidad de estar en la muestra.
 No todas las muestras igual probabilidad de aparecer.

 Perfectamente seguro cuando no hay ningún orden en la población.
 Peligro de sesgo: si orden en población en forma de ciclos que coincide con el valor
del factor de elevación.
 Ejemplo: Estudio de los contenidos de un periódico, población son los periódicos de
cada día en uno o más años y factor de elevación 7 o múltiplo de 7. Todos los días
seleccionados serán el mismo día de la semana.
 Igual con otros fenómenos cíclicos: entradas de cine, ventas en restaurantes o
tiendas, tráfico, uso de transportes públicos....
Muestreo estratificado
 Muestreo aleatorio estratificado.
 Dividimos la población en diferentes grupos, o estratos, y tomamos de cada uno de
ellos una muestra aleatoria simple.
 Lo hacemos cuando conocemos que la población contiene grupos o subpoblaciones
que son homogéneos internamente (estratos), pero sospechamos que son muy
diferentes entre ellos respecto a la característica estudiada.
Muestreo estratificado proporcional
Ejemplo:
 Muestra de estudiantes.
 Sospechamos que sexo influye en respuesta a pregunta.
 Sabemos proporción de hombres y mujeres en población.
 Calcular número de hombres y mujeres en la muestra, manteniendo la proporción de
la población.
 Muestra aleatoria simple de mujeres y hombres.
 Resultado: “mejor” que muestreo aleatorio simple.
Muestreo estratificado no proporcional
Ejemplo: estudio comparativo de acceso a servicios de salud entre personas que viven en
municipios pequeños, medianos y grandes.
 Si muestreo aleatorio simple: muy poca gente de municipios pequeños.
 Muestra muy pequeña error muestral grande imposible hacer inferencia y
comparación.
 “Solución”: muestreo estratificado con muestras del mismo tamaño de personas que
viven en municipios pequeños, medianos y grandes.
Muestreo por conglomerados
 A veces muestreo aleatorio simple, sistemático o estratificado no es posible.
 Requieren listas (totales o por estratos)
 En muchos casos: esas listas no existen (o no son accesibles legalmente)
 Pero sí existen listas de “grupos heterogéneos de sujetos”, o conglomerados
 Hacemos muestreo aleatorio de conglomerados

 Dentro de los conglomerados elegidos: todos los elementos, o muestreo aleatorio
simple.
Ejemplo: estudio sobre estudiantes universitarios españoles.
 No hay lista de todos los estudiantes, ni por estratos.
 Pero sí: lista de universidades y facultades.
Muestreo por conglomerados:
 Muestreo aleatorio simple de universidades.
 Idem de facultades.
 Idem de grupos.
 Dentro del grupo (ya hay lista): todos, o muestreo aleatorio simple.
Solución muy práctica cuando conglomerados definidos geográficamente: enorme
reducción costes extracción datos (viajes, tiempo, etc...).
Diferencia con estratos:
 Estratos son homogéneos internamente; interesa conocer diferencias entre estratos.
 Conglomerados son heterogéneos internamente; no interesa particularmente
diferencias; es sólo un medio de tomar datos más económico y simple.
 Requisitos: los conglomerados lo más heterogéneos posibles (como la población)
internamente; muy parecidos entre sí.
 Esto nunca es del todo así.
 Sobre todo conglomerados geográficos: gente igual vive junta (barrios, ciudades).
 Resultados: más error muestral que muestra aleatoria simple.
 Métodos inferencia: diferentes.
Muestreo polietápico
 Combinación de varios métodos de muestreo.
 Para poblaciones complejas.
 Diferentes pasos en la selección de la muestra que usan diferentes métodos.
Ejemplo:
 Municipios de Castilla-La Mancha son conglomerados, pero heterogéneos entre sí.
 Hacer “estratos de conglomerados” por tamaño de la población, o por actividad
económica dominante.
 Seleccionar aleatoriamente, dentro de cada estrato, un número de municipios
(muestreo estratificado por conglomerados).
 Dentro de cada municipio, las manzanas son conglomerados.
 Distribuir las manzanas de cada municipio en estratos por niveles de renta, u otro
indicador conocido.
 Hacer muestreo aleatorio de manzanas en cada estrato de cada municipio (otra vez:
muestreo estratificado por conglomerados).
 En cada manzana hacer un muestreo sistemático de casas.

 En cada casa hacer un muestreo aleatorio simple de los individuos residentes en la
casa.
Muestreos no probabilísticos
 Aquellos en los que no es posible calcular la probabilidad de las diferentes
muestras.
 NO ES POSIBLE aplicar métodos de estadística inferencial cuando usamos estos
muestreos.
 Típico ejemplo: muestra voluntaria.
 Cupón en revista, que pide contestación por correo.
 Oyentes de programa de radio o televisión, a los que se pide que llamen a un
teléfono.
 Doble distorsión: el programa y el sentimiento intenso sobre el tema.
 NO es una muestra representativa: es una muestra sesgada.
Otro ejemplo: muestreo “de calle”: entrevistador se planta en una esquina y entrevista a
gente que pasa. Muestra sesgada: lugar, hora, día de la semana, proceso de “selección” por
el entrevistador de a quién parar...
Otro ejemplo: Muestreo de conveniencia: empresa que encuesta a sus clientes para conocer
las opiniones de los compradores de un producto; sindicato que encuesta a sus afiliados
para conocer opiniones de los trabajadores.
Todos estos ejemplos: error o sesgo de selección.
 NO se pueden aplicar métodos de estadística inferencial.
 NO son muestras representativas.
Azar y estudios experimentales
 Algunas veces (poco en ciencias sociales, más en otras ciencias): estudios
experimentales.
 Experimento: comparar respuestas de los sujetos en alguna variable, bajo diferentes
condiciones. A esas condiciones las llamamos tratamientos. Ejemplos: medicina
sobre enfermedad, método de estudio sobre rendimiento académico, forma de
funcionamiento de cárcel sobre reincidencia...
 Papel del azar en estudios experimentales es doble.
 Si es posible: el conjunto de la muestra, escogida al azar respecto a la población.
 Submuestras (reciben dos tratamientos distintos; o una recibe tratamiento y la otra
no): también al azar.
 Efecto: en todos los otros factores “no controlados” los dos grupos serán similares.
El error muestral y otras formas de error
Error muestral
 Aunque la muestra sea la más perfecta posible (muestreo aleatorio simple).
 La muestra escogida es una concreta cuyos estimadores no son idénticos a los
parámetros de la población.
 Ejemplo: dos encuestas para las mismas elecciones, realizadas al mismo tiempo,
con muestra de igual tamaño. ¿Obtienen exactamente el mismo dato en el
porcentaje de voto al partido A?
Error muestral: la diferencia entre el valor del estimador en la muestra y el valor del
parámetro en la población.
 Por definición: no lo sabemos.
 Pero los métodos de estadística inferencial nos permiten calcular el error muestral
más probable (ejemplo: para 1.000 entrevistas, en torno a ± 3%, con un 95,5% de
confianza) (Temas 9 y ss).
 Siempre y cuando sea muestreo aleatorio simple, o al menos muestreo
probabilístico.
Otras formas de error o sesgo
 Además del error muestral y el sesgo de selección (muestras no probabilísticas).
 Otras razones por las que los estimadores en la muestra pueden diferir de los
parámetros en la población.
 Sesgo por no respuesta, cuando algunos sujetos se niegan a cooperar. Si son
muchos, o claramente diferentes según características: peligro.
 Intentar tomar información incluso de los que no responden: evitar patrones.
 Pero también pueden existir sesgos de respuesta, cuando los entrevistados
responden, pero no lo hacen de manera sincera.
 Pueden mentir para ocultar una idea que saben que es socialmente poco aceptada
(racismo).
 Pueden decir lo que creen que agrada al entrevistador (encuesta de deportes).
 Pueden variar la respuesta según sexo o raza del entrevistador.
 Se aburren, se cansan.

Referencias
Delgado, Juan Manuel y Gutierrez, Juan (1995): Métodos y Técnicas Cualitativas de

Investigación en Ciencias Sociales. Madrid: Editorial Síntesis.
Etxeberría, Juan, et. al. (1995): Análisis de Datos y Textos: Madrid: Editorial Ra-Ma. 8.
Galindo, Cáceres (1998): Técnicas de investigación en Sociedad, Cultura y
Comunicación. México: Addison WileyLongman.
Título: Probabilidad y Estadística Aplicaciones y Métodos Autor: G.C. Canavos Editorial:
Mc. Graw Hill, 1987.

Producto. Análisis de Datos. Martha Nohemy GTZ C.

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Producto. Análisis de Datos. Martha Nohemy GTZ C.

Cargado por

Copyright:

Formatos disponibles

3.

El análisis de datos consiste en la realización de las operaciones a las que el investigador

Existen dos grandes familias de técnicas de análisis de datos: 

1. Preparación y descripción del material bruto

1. Preparación y descripción del material bruto: Consiste en preparar la base

2. La codificación: es el modo más desarrollado de reducción de datos. Consiste en atribuir

Un buen sistema de codificación debe ser: Inclusivo y adaptativo.

Adaptativo: debe permitir generar nuevos códigos cuando la investigación lo requiera

3. Inducción: consiste en identificar temas a partir de la base de datos y luego realizar

3. Elección y aplicación de los métodos de análisis.

1. Método de emparejamiento: compara una configuración teórica predicha con una

2. Método iterativo: Abordaje de los datos con mínima formalización teórica y

3. Método de análisis histórico (series temporales): Consiste en formular predicciones

4. Análisis transversal. El análisis transversal apunta esencialmente a verificar si hay

Dra. Martha Nohemy Gutiérrez Cereceres.

3.1 ¿QUÉ PROCEDIMIENTO SE SIGUE PARA ANALIZAR

En la actualidad, el análisis cuantitativo de los datos se lleva a cabo por computadora u

Dra. Martha Nohemy Gutiérrez Cereceres.

Elemento, indicador o factor Escala

Elemento, indicador o factor Escala

3.2 ¿QUÉ ANÁLSIS PUEDEN EFECTUARSE EN LOS DATOS?

Dra. Martha Nohemy Gutiérrez Cereceres.

3.3. ESTADÍSTICA DESCRIPTIVA PARA CADA VARIABLE.

El concepto de Estadística es muy amplio, y sus aplicaciones directas o indirectas, muy

b) Muestra, o conjunto de elementos de los que efectivamente se dispone de datos, y que

Dra. Martha Nohemy Gutiérrez Cereceres.

1) Variables cualitativas, también llamadas caracteres, variables categóricas o atributos,

Dra. Martha Nohemy Gutiérrez Cereceres.

Distribuciones de frecuencia y tablas estadísticas.

Un primer y obligado paso de ese resumen de datos es el simple recuento de las

- Frecuencia relativa de una modalidad o valor de una variable es su frecuencia absoluta

Dra. Martha Nohemy Gutiérrez Cereceres.

Las distribuciones de frecuencias se presentan en tablas como las anteriores, o bien en

Así, para caracteres o variables cualitativas se pueden mencionar:

- El diagrama de barras o rectángulos, consistente en asociar a cada modalidad de la

- El diagrama de sectores, que refleja como sectores de un círculo las frecuencias de

Dra. Martha Nohemy Gutiérrez Cereceres.

- Para variables discretas, el diagrama de segmentos. Las variables discretas toman

- El histograma o histograma de rectángulos, que es la gráfica adecuada para

Parámetros de una distribución

Vamos a definir ahora las medidas más importantes:

Primer grupo: Parámetros de Centralización.

Entre los parámetros de centralización, también llamados de tendencia central o de posición

La moda: es el valor de la variable que tiene mayor frecuencia en la muestra, es decir, el

La mediana: es el valor que está en el centro de la distribución, es decir, el valor que

La media o media aritmética: es el centro de gravedad de la distribución, o fiel de la

Segundo grupo: Parámetros de Dispersión.

La desviación absoluta media: es la media aritmética de los valores absolutos de las

La varianza: es la media aritmética de los cuadrados de las desviaciones, por lo que se

El coeficiente de variación, que es el cociente, a menudo expresado en tanto por ciento,

Tercer grupo: Cuantiles o parámetros de posición

Dra. Martha Nohemy Gutiérrez Cereceres.

Medidas o puntuaciones típicas

Llamaremos medida directa en cualquier estudio o experimento, a aquella que se ha

Sobre esta medida directa, mediante operaciones matemáticas o de ordenación, se pueden

Dra. Martha Nohemy Gutiérrez Cereceres.

Según la desigualdad de Tchebychev, las medidas Z comprendidas entre -2 y 2 suponen

Las más importantes son: Escala T La puntuación T se obtiene multiplicando Z por 10 y

3.3.2 RAZONES Y TASAS

Cifras absolutas y frecuencias relativas

 Se define como el cociente que resulta de dividir un subconjunto por el conjunto

1. Se define como el cociente que resulta de dividir un número de acontecimientos

Existen dos grandes familias de técnicas de análisis de datos: