Documentos de Académico
Documentos de Profesional
Documentos de Cultura
NACIONES
ANTOLOGÍA DE LA MATERIA
Laboratorio de Investigación
2
2.4.3. Sugerencia.
2.4.4. Sugerencia.
2.4.5. Conceptos.
2.4.6. Recomendaciones prácticas.
2.5. Probabilidad.
2.5.1. Sugerencia.
2.5.2. Sugerencia.
2.5.3. Sugerencia.
2.5.4. Recomendaciones prácticas.
2.6. Distribuciones de probabilidad.
2.6.1. Sugerencia.
2.6.2. Recomendaciones prácticas.
2.6.3. Sugerencia.
2.6.4. Recomendaciones prácticas.
2.7. Métodos estadísticos.
2.7.1. Población, individuo, carácter.
2.7.2 Estadística descriptiva.
2.7.3 Estadística inferencial.
2.7.4 Sugerencia.
2.7.5 Sugerencia.
2.7.6 Sugerencia.
2.7.7 Sugerencia.
2.8. Estimación.
2.8.1. Sugerencia.
2.8.2. Sugerencia.
2.8.3. Sugerencia.
2.9. Números índices.
3
CAPÍTULO I
EL CONOCIMIENTO
El constructivismo, es un amplio cuerpo de teorías que tienen en común la idea de que las
personas, tanto individual como colectivamente, "construyen" sus ideas sobre su medio
físico, social o cultural. De esa concepción de "construir" el pensamiento surge el término
que ampara a todos.
Puede denominarse como teoría constructivista, por tanto, toda aquella que entiende que el
conocimiento es el resultado de un proceso de construcción o reconstrucción de la realidad
que tiene su origen en la interacción entre las personas y el mundo. Por tanto, la idea central
reside en que la elaboración del conocimiento constituye una modelización más que una
descripción de la realidad.
Como sucede con cualquier doctrina o teoría, el constructivismo alberga en su interior una
variedad de escuelas y orientaciones que mantienen ciertas diferencias de enfoque y
contenido.
4
El "constructivismo piagetiano", que adopta su nombre de Jean Piaget, es el que sigue más
de cerca las aportaciones de ese pedagogo, particularmente aquellas que tienen relación con
la epistemología evolutiva, es decir, el conocimiento sobre la forma de construir el
pensamiento de acuerdo con las etapas psicoevolutivas de los niños. El constructivismo
piagetiano, tuvo un momento particularmente influyente durante las décadas de 1960 y
1970, impulsando numerosos proyectos de investigación e innovación educativa.
Para Piaget, la idea de la asimilación es clave, ya que la nueva información que llega a una
persona es "asimilada" en función de lo que previamente hubiera adquirido. Muchas veces
se necesita luego una acomodación de lo aprendido, por lo que debe haber una
transformación de los esquemas del pensamiento en función de las nuevas circunstancias.
Aún teniendo en cuenta la amplia variedad de versiones que coexisten bajo el marbete del
constructivismo, pueden destacarse unas pocas ideas fundamentales que caracterizan a esta
corriente. Entre ellas está la de las "ideas previas", entendidas como construcciones o
teorías personales, que, en ocasiones, han sido también calificadas como concepciones
alternativas o preconcepciones. Otra idea generalmente adscrita a las concepciones
constructivistas es la del "conflicto cognitivo" que se da entre concepciones alternativas y
constituirá la base del "cambio conceptual", es decir, el salto desde una concepción previa a
otra (la que se construye), para lo que se necesitan ciertos requisitos.
5
Junto a los anteriores aspectos, el constructivismo se caracteriza por su rechazo a
formulaciones inductivistas o empiristas de la enseñanza, es decir, las tendencias más
ligadas a lo que se ha denominado enseñanza inductiva por descubrimiento, donde se
esperaba que el sujeto, en su proceso de aprendizaje, se comportara como un inventor. Por
el contrario, el constructivismo rescata, por lo general, la idea de enseñanza transmisiva o
guiada, centrando las diferencias de aprendizaje entre lo significativo (Ausubel) y lo
memorístico.
Como consecuencia de esa concepción del aprendizaje, el constructivismo ha aportado
metodologías didácticas propias como los mapas y esquemas conceptuales, la idea de
actividades didácticas como base de la experiencia educativa, ciertos procedimientos de
identificación de ideas previas, la integración de la evaluación en el propio proceso de
aprendizaje, los programas entendidos como guías de la enseñanza, etc.
Los seres humanos utilizan, para desarrollar su vida y realizar actividades, un conjunto
amplio de conocimientos. Pero este conocimiento debe ser encontrado por medio de un
trabajo indagatorio sobre los objetos que se intenta conocer. La teoría del conocimiento,
mejor entendida como Epistemología, se define y entiende de la siguiente manera:
Epistemología (del griego, episteme, 'conocimiento'; logos, 'teoría'), rama de la filosofía
que trata de los problemas filosóficos que rodean a la denominada teoría del conocimiento.
Durante el siglo V a.c.., los sofistas griegos cuestionaron la posibilidad de que hubiera un
conocimiento fiable y objetivo. Por ello, uno de los principales sofistas, Gorgias, afirmó
que nada puede existir en realidad, que si algo existe no se puede conocer, y que si su
conocimiento fuera posible, no se podría comunicar. Otro importante sofista, Protágoras,
mantuvo que ninguna opinión de una persona es más correcta que la de otra, porque cada
individuo es el único juez de su propia experiencia. Platón, siguiendo a su ilustre maestro
Sócrates, intentó contestar a los sofistas dando por sentado la existencia de un mundo de
“formas o ideas”, invariable e invisible, sobre las que es posible adquirir un conocimiento
exacto y certero. En el famoso mito de la caverna, que aparece en uno de sus principales
diálogos, La República, Platón mantenía que las cosas que uno ve y palpa son sombras,
copias imperfectas de las formas puras que estudia la filosofía. Por consiguiente, sólo el
razonamiento filosófico abstracto proporciona un conocimiento verdadero, mientras que la
percepción facilita opiniones vagas e inconsistentes. Concluyó que la contemplación
filosófica del mundo de las ideas es el fin más elevado de la existencia humana.
6
reglas de la lógica. La observación cuidadosa y la adhesión estricta a las reglas de la lógica,
que por primera vez fueron expuestas de forma sistemática por Aristóteles, ayudarían a
superar las trampas teóricas que los sofistas habían expuesto. Las escuelas del estoicismo y
del epicureísmo coincidieron con Aristóteles en que el conocimiento nace de la percepción
pero, al contrario que Aristóteles y Platón, mantenían que la filosofía debía ser considerada
como una guía práctica para la vida y no como un fin en sí misma.
Después de varios siglos de declive del interés por el conocimiento racional y científico,
santo Tomás de Aquino (máximo representante del escolasticismo) y otros filósofos de la
Edad Media ayudaron a devolver la confianza en la razón y la experiencia, combinando los
métodos racionales y la fe en un sistema unificado de creencias. Tomás de Aquino
coincidió con Aristóteles en considerar la percepción como el punto de partida y la lógica
como el procedimiento intelectual para llegar a un conocimiento fiable de la naturaleza,
pero estimó que la fe en la autoridad de la Biblia era la principal fuente de la creencia
religiosa.
Desde el siglo XVII, hasta finales del siglo XIX, la epistemología enfrentó a los partidarios
de la razón y a los que consideraban que la percepción era el único medio para adquirir el
conocimiento.
Para los seguidores del racionalismo (entre los que sobresalieron el francés René Descartes,
el holandés Baruch Spinoza y el alemán Gottfried Wilhelm Leibniz) la principal fuente y
prueba final del conocimiento era el razonamiento deductivo basado en principios evidentes
o axiomas. En su Discurso del método (1637), Descartes inauguró el nuevo método que
podía permitir alcanzar la certeza y el fundamento de la racionalidad.
Para los principales representantes del empirismo (especialmente los ingleses Francis
Bacon y John Locke) la fuente principal y prueba última del conocimiento era la
percepción. Bacon inauguró la nueva era de la ciencia moderna criticando la confianza
medieval en la tradición y la autoridad, y aportando nuevas normas para articular el método
científico, entre las que se incluyen el primer grupo de reglas de la lógica inductiva
formuladas. En su Ensayo sobre el entendimiento humano (1690), Locke criticó la creencia
racionalista de que los principios del conocimiento son evidentes por una vía intuitiva, y
argumentó que todo conocimiento deriva de la experiencia, ya sea de la procedente del
mundo externo, que imprime sensaciones en la mente, o de la experiencia interna, cuando
la mente refleja sus propias actividades. Afirmó que el conocimiento humano de los objetos
físicos externos está siempre sujeto a los errores de los sentidos y concluyó que no se puede
tener un conocimiento certero del mundo físico que resulte absoluto.
El filósofo irlandés George Berkeley, autor del Tratado sobre los principios del
conocimiento humano (1710), estaba de acuerdo con Locke en que el conocimiento se
adquiere a través de las ideas, pero rechazó la creencia de Locke de que es posible
distinguir entre ideas y objetos. El filósofo escocés David Hume, cuyo más famoso tratado
epistemológico fue el de la Investigación sobre el entendimiento humano (1751), siguió con
7
la tradición empirista, pero no aceptó la conclusión de Berkeley de que el conocimiento
consistía tan sólo en ideas. Dividió todo el conocimiento en dos clases: el conocimiento de
la relación de las ideas (es decir, el conocimiento hallado en las matemáticas y la lógica,
que es exacto y certero pero no aporta información sobre el mundo) y el conocimiento de la
realidad (es decir, el que se deriva de la percepción).
Hume, afirmó que la mayor parte del conocimiento de la realidad descansa en la relación
causa-efecto, y al no existir ninguna conexión lógica entre una causa dada y su efecto, no se
puede esperar conocer ninguna realidad futura con certeza. Así, las leyes de la ciencia más
certeras podrían no seguir siendo verdad: una conclusión que tuvo un impacto
revolucionario en la filosofía.
En dos de sus trabajos más importantes, Crítica de la razón pura (1781) y Crítica de la
razón práctica (1788), el filósofo alemán Emmanuel Kant, intentó resolver la crisis
provocada por Locke y llevada a su punto más alto por las teorías de Hume. Propuso una
solución en la que combinaba elementos del racionalismo con algunas tesis procedentes del
empirismo. Coincidió con los racionalistas en que se puede alcanzar un conocimiento
exacto y cierto, pero siguió a los empiristas en mantener que dicho conocimiento es más
informativo sobre la estructura del pensamiento que sobre el mundo que se halla al margen
del mismo. Distinguió tres tipos de conocimiento: analítico a priori (que es exacto y certero
pero no informativo, porque sólo aclara lo que está contenido en las definiciones), sintético
a posteriori (que transmite información sobre el mundo a partir de la experiencia, pero está
sujeto a los errores de los sentidos) y sintético a priori (que se descubre por la intuición y es
a la vez exacto y certero, ya que expresa las condiciones necesarias que la mente impone a
todos los objetos de la experiencia). Las matemáticas y la filosofía, de acuerdo con Kant,
aportan este último tipo de conocimiento. Desde los tiempos de Kant, una de las cuestiones
sobre las que más se ha debatido en filosofía ha sido, si existe o no el conocimiento
sintético a priori.
Durante el siglo XIX, el filósofo alemán Georg Wilhelm Friedrich Hegel, retomó la
afirmación racionalista de que el conocimiento de la realidad puede alcanzarse con carácter
absoluto equiparando los procesos del pensamiento, de la naturaleza y de la historia. Hegel,
provocó un interés por la historia y el enfoque histórico del conocimiento que más tarde fue
realzado por Herbert Spencer, en Gran Bretaña y la escuela alemana del historicismo.
Spencer y el filósofo francés Auguste Comte llamaron la atención sobre la importancia de
la sociología como una rama del conocimiento y ambos aplicaron los principios del
empirismo al estudio de la sociedad.
La escuela estadounidense del pragmatismo, fundada por los filósofos Charles Sanders
Peirce, William James y John Dewey a principios del siglo XX, llevó el empirismo aún más
lejos al mantener que el conocimiento es un instrumento de acción y que todas las creencias
tenían que ser juzgadas por su utilidad como reglas para predecir las experiencias.
8
A principios del siglo XX, los problemas epistemológicos fueron discutidos a fondo y
sutiles matices de diferencia empezaron a dividir a las distintas escuelas de pensamiento
rivales. Se prestó especial atención a la relación entre el acto de percibir algo, el objeto
percibido de una forma directa y la cosa que se puede decir que se conoce como resultado
de la propia percepción. Los autores fenomenológicos afirmaron que los objetos de
conocimiento son los mismos que los objetos percibidos.
Los neorrealistas sostuvieron que se tienen percepciones directas de los objetos físicos o
partes de los objetos físicos en vez de los estados mentales personales de cada uno. Los
realistas críticos adoptaron una posición intermedia, manteniendo que aunque se perciben
sólo datos sensoriales, como los colores y los sonidos, éstos representan objetos físicos
sobre los cuales aportan conocimiento.
Durante el segundo cuarto del siglo XX, surgieron dos nuevas escuelas de pensamiento.
Ambas eran deudoras del filósofo austriaco Ludwig Wittgenstein, autor de obras
revolucionarias como el Tractatus logico-philosophicus (1921). Por una parte, la Escuela de
Viena, adscrita al denominado empirismo o positivismo lógico, hizo hincapié en que sólo
era posible una clase de conocimiento: el conocimiento científico. Sus miembros creían que
cualquier conocimiento válido tiene que ser verificable en la experiencia y, por lo tanto, que
mucho de lo que había sido dado por bueno por la filosofía no era ni verdadero ni falso,
sino carente de sentido. A la postre, siguiendo a Hume y a Kant, se tenía que establecer una
clara distinción entre enunciados analíticos y sintéticos.
Por ejemplo: si un profesor nos dice (o leemos en un libro o periódico) que la economía del
país crece a un ritmo del 4% anual, esta afirmación (cierta o falsa) podemos utilizarla y
9
recordarla, al mismo tiempo que se incorpora y relaciona con otros conocimientos que
poseemos de antemano. Pero resulta evidente que alguien es el responsable de esa
afirmación; alguien, de algún modo, ha estudiado la economía y ha determinado por algún
procedimiento que su crecimiento es de un 4% ¿Cómo lo ha hecho? ¿De qué recursos se ha
valido?
Desde que la especie humana comenzó a crear cultura, es decir, a modificar y remodelar el
ambiente que la rodeaba para sobrevivir y desarrollarse, fue necesario también que
comprendiera la naturaleza y las mutaciones de los objetos que constituían su entorno.
Tareas que hoy resultan sencillas, como edificar una vivienda precaria, domesticar animales
o trabajar la tierra, sólo pudieron ser emprendidas después de cuidadosas observaciones de
todo tipo: el ciclo de los días y las noches, el de las estaciones del año, la reproducción de
los animales y vegetales, el estudio del clima y de las tierras, el conocimiento elemental de
la geografía, etc.
Todas estas construcciones del intelecto pueden verse como parte de un amplio proceso de
adquisición de conocimientos que muestra lo dificultosa que resulta la aproximación a la
verdad; en la historia del pensamiento nunca ha sucedido que de pronto alguien haya
alcanzado la verdad pura y completa sin antes pasar por el error.
Esto implica decir que el conocimiento llega a todos nosotros como un proceso, no como
un acto único donde se pasa de una vez de la ignorancia a la verdad, además de serlo desde
el punto de vista histórico y desde el punto de vista del racionalismo.
10
puede emocionarse y ver que lo que tiene ante sí es la obra de Dios o también puede
detenerse a evaluar sus posibilidades de aprovechamiento.
El producto de cualquiera de estas actitudes será, en todos los casos, algún tipo de
conocimiento. El conocimiento científico es uno de los modos posibles de conocimiento,
quizá el más útil o adecuado, pero no el único, ni el único capaz de proporcionarnos
respuestas para nuestras interrogantes.
La ciencia es una de las actividades que el hombre realiza, y son un conjunto de acciones
encaminadas y dirigidas hacia determinado fin, que es el de obtener un conocimiento
verificable sobre los hechos que lo rodean.
Otras cualidades específicas de la ciencia, que permiten distinguirla del pensar cotidiano y
de otras formas de conocimiento son:
Objetividad: se intenta obtener un conocimiento que concuerde con la realidad del objeto,
que lo describa o explique tal cual es y no como desearíamos que fuese. Lo contrario es
subjetividad, las ideas que nacen del prejuicio, de la costumbre o la tradición. Para poder
luchar contra la subjetividad, es preciso que nuestros conocimientos puedan ser verificados
por otros.
Racionalidad: la ciencia utiliza la razón como arma esencial para llegar a sus resultados.
Los científicos trabajan en lo posible con conceptos, juicios y razonamientos, y no con las
sensaciones, imágenes o impresiones. La racionalidad aleja a la ciencia de la religión y de
todos los sistemas donde aparecen elementos no racionales o donde se apela a principios
explicativos extra o sobrenaturales; y la separa también del arte donde cumple un papel
secundario subordinado, a los sentimientos y sensaciones.
11
Falibilidad: la ciencia es uno de los pocos sistemas elaborados por el hombre donde se
reconoce explícitamente la propia posibilidad de equivocación, de cometer errores. En esta
conciencia de sus limitaciones, es donde reside la verdadera capacidad para auto corregirse
y superarse.
En general, podemos decir que toda investigación parte de un problema a estudiar y que
después de pasar por una serie de fases se llega a unos resultados empíricos relevantes para
el problema inicialmente planteado, los que sirven de base para contrastar las conjeturas
realizadas en relación con el problema planteado. La forma de llegar a esos resultados
empíricos es diversa, pero el proceso de investigación en sí mismo es, desde un punto de
vista lógico - formal, similar.
Para plantear una hipótesis adecuada, debemos tener en cuenta los siguientes puntos:
Los términos que se empleen deben ser claros y concretos para poder definirlos de manera
operacional, a fin de que cualquier investigador que quiera replicar la investigación, pueda
hacerlo.
Si una hipótesis no puede ser sometida a verificación empírica, desde el punto de vista
científico no tiene validez.
Las hipótesis deben ser objetivas y no llevar algún juicio de valor; es decir, no debe
definirse el fenómeno con adjetivos tales como "mejor" o "peor", sino solamente tal y como
pensamos que sucede en la realidad.
12
Las hipótesis deben ser específicas, no sólo en cuanto al problema, sino a los indicadores
que se van a emplear para medir las variables que estamos estudiando.
Las hipótesis deben estar relacionadas con los recursos y las técnicas disponibles. Esto
quiere decir que cuando el investigador formule su hipótesis debe saber si los recursos que
posee son adecuados para la comprobación de la misma.
Establecer las variables a estudiar, es decir, especificar las variables a estudiar, fijarles
límite.
Establecer relaciones entre variables, es decir, la hipótesis debe ser especificada de tal
manera que sirva de base a inferencias que nos ayuden a decidir si explica o no los
fenómenos observados. Las hipótesis deben establecer relaciones cuantitativas entre
variables.
Tipos de hipótesis:
Hipótesis nula. Para todo tipo de investigación en la que tenemos dos o más grupos, se
establecerá una hipótesis nula.
La hipótesis nula es aquella que nos dice que no existen diferencias significativas entre los
grupos.
Por ejemplo, supongamos que un investigador cree que si un grupo de jóvenes se somete a
un entrenamiento intensivo de natación, éstos serán mejores nadadores que aquellos que no
recibieron entrenamiento. Para demostrar su hipótesis toma al azar una muestra de jóvenes,
y también al azar los distribuye en dos grupos: uno que llamaremos experimental, el cual
recibirá entrenamiento, y otro que no recibirá entrenamiento alguno, al que llamaremos
control. La hipótesis nula señalará que no hay diferencia en el desempeño de la natación
entre el grupo de jóvenes que recibió el entrenamiento y el que no lo recibió.
13
Una hipótesis nula es importante por varias razones:
El hecho de contar con una hipótesis nula ayuda a determinar si existe una diferencia entre
los grupos, si esta diferencia es significativa, y si no se debió al azar.
No toda investigación precisa de formular hipótesis nula. Recordemos que la hipótesis nula
es aquella por la cual indicamos que la información a obtener es contraria a la hipótesis de
trabajo.
Otro ejemplo:
14
Las hipótesis, naturalmente, serán diferentes según el tipo de investigación que se esté
realizando. En los estudios exploratorios, a veces, el objetivo de la investigación podrá ser
simplemente el de obtener los mínimos conocimientos que permitan formular una hipótesis.
También es aceptable que, en este caso, resulten poco precisas, como cuando afirmamos
que "existe algún tipo de problema social en tal grupo", o que los planetas poseen algún
tipo de atmósfera, sin especificar de qué elementos está compuesta.
Los trabajos de índole descriptivo generalmente presentan hipótesis del tipo "todos los X
poseen, en alguna medida, las característica Y". Por ejemplo, podemos decir que todas las
naciones poseen algún comercio internacional, y dedicarnos a describir, cuantificando, las
relaciones comerciales entre ellas.
También podemos hacer afirmaciones del tipo "X pertenece al tipo Y", como cuando
decimos que una tecnología es capital - intensiva. En estos casos, describimos,
clasificándolo, el objeto de nuestro interés, incluyéndolo en un tipo ideal complejo de orden
superior.
Por último, podemos construir hipótesis del tipo "X produce (o afecta) a Y", donde
estaremos en presencia de una relación entre variables.
Cuando las variables son más de dos, las estructuras más frecuentes son:
15
Si P, entonces Q, bajo las condiciones R y S.
Si P1, P2 y P3, entonces Q.
1.8. POBLACIÓN Y MUESTRA
Una población está determinada por sus características definitorias. Por lo tanto, el conjunto
de elementos que posea esta característica se denomina población o universo. Población es
la totalidad del fenómeno a estudiar, donde las unidades de población poseen una
característica común, la que se estudia y da origen a los datos de la investigación.
Entonces, una población es el conjunto de todas las cosas que concuerdan con una serie
determinada de especificaciones. Un censo, por ejemplo, es el recuento de todos los
elementos de una población.
Cuando seleccionamos algunos elementos con la intención de averiguar algo sobre una
población determinada, nos referimos a este grupo de elementos como muestra. Por
supuesto, esperamos que lo que averiguamos en la muestra sea cierto para la población en
su totalidad.
Cuando no es posible medir cada uno de los individuos de una población, se toma una
muestra representativa de la misma.
La muestra descansa en el principio de que las partes representan al todo y, por tal, refleja
las características que definen la población de la que fue extraída, lo cual nos indica que es
representativa. Por lo tanto, la validez de la generalización depende de la validez y el
tamaño de la muestra.
El método de muestreo se basa en ciertas leyes que le otorgan su fundamento científico, las
cuales son:
De estas dos leyes fundamentales de la estadística, se infieren aquellas que sirven de base
más directamente al método de muestreo:
16
Ley de la regularidad estadística: un conjunto de n unidades tomadas al azar de un conjunto
N, es casi seguro que tenga las características del grupo más grande.
Ley de la inercia de los grandes números: esta ley es contraria a la anterior. Se refiere al
hecho de que en la mayoría de los fenómenos, cuando una parte varía en una dirección, es
probable que una parte igual del mismo grupo, varíe en dirección opuesta.
Tipos de muestras.
Muestreo aleatorio simple: la forma más común de obtener una muestra es la selección al
azar. Es decir, cada uno de los individuos de una población tiene la misma posibilidad de
ser elegido. Si no se cumple este requisito, se dice que la muestra es viciada. Para tener la
seguridad de que la muestra aleatoria no es viciada, debe emplearse para su constitución
una tabla de números aleatorios.
Muestreo estratificado: una muestra es estratificada cuando los elementos de la muestra son
proporcionales a su presencia en la población. La presencia de un elemento en un estrato
excluye su presencia en otro. Para este tipo de muestreo, se divide a la población en varios
grupos o estratos con el fin de dar representatividad a los distintos factores que integran el
universo de estudio. Para la selección de los elementos o unidades representantes, se utiliza
el método de muestreo aleatorio.
Muestreo por cuotas: se divide a la población en estratos o categorías, y se asigna una cuota
para las diferentes categorías y, a juicio del investigador, se selecciona las unidades de
muestreo. La muestra debe ser proporcional a la población, y en ella deberán tenerse en
cuenta las diferentes categorías. El muestreo por cuotas se presta a distorsiones, al quedar a
criterio del investigador la selección de las categorías.
Muestreo tipo: la muestra tipo (master simple) es una aplicación combinada y especial de
los tipos de muestra existentes. Consiste en seleccionar una muestra "para ser usada" al
disponer de tiempo, la muestra se establece empleando procedimientos sofisticados; y una
vez establecida, constituirá el módulo general del cual se extraerá la muestra definitiva
conforme a la necesidad específica de cada investigación.
17
1.9. LAS VARIABLES
Se pueden definir como todo aquello que vamos a medir, controlar y estudiar en una
investigación o estudio. Por lo tanto, es importante, antes de iniciar una investigación, que
sepamos cuáles son las variables que vamos a medir y la manera en que lo haremos. Es
decir, las variables deben ser susceptibles de medición.
Variable es todo aquello que puede asumir diferentes valores, desde el punto de vista
cuantitativo o cualitativo.
Para definir las variables, nos podemos basar en los indicadores, que constituyen el
conjunto de actividades o características propias de un concepto. Por ejemplo, si hablamos
de inteligencia, podemos decir que está compuesta por una serie de factores como la
capacidad verbal, capacidad de abstracción, etc. Cada factor puede ser medido a través de
indicadores.
En otras palabras, los indicadores son algo específico y concreto que representan algo más
abstracto o difícil de precisar.
No todos los indicadores tienen el mismo valor. Es decir, aunque haya varios indicadores
para un mismo fenómeno, habrá algunos más importantes que otros, y por lo general
cualquier indicador que se tenga, está basado en una probabilidad de que realmente
represente al fenómeno.
Se debe tener el menor número de indicadores de una variable, siempre y cuando éstos sean
realmente representativos de la misma.
Hay que tener en cuenta que los indicadores sólo poseen una relación de probabilidad con
respecto a la variable.
18
manipula, debido a que cree que existe una relación entre ésta y la variable dependiente.
La variable dependiente puede ser definida: como los cambios sufridos por los sujetos
como consecuencia de la manipulación de la variable independiente por parte del
experimentador.
Las variables inter son aquellas que estudian simultáneamente varios grupos de sujetos. Las
comparaciones se establecen entre (inter) los grupos.
Las variables intra son aquellas que pueden estudiar al mismo grupo en diferentes períodos.
Variables extrañas.
Son todas aquellas variables que el investigador no controla directamente, pero que pueden
influir en el resultado de su investigación. Deben ser controladas, hasta donde sea posible,
para asegurarnos de que los resultados se deben al manejo que el investigador hace de la
variable independiente, más no a variables extrañas, no controladas. Algunos métodos para
realizar este control son los siguientes:
Eliminación.
Cuando sabemos que existe una variable extraña que puede alterar los resultados de la
investigación, podemos controlarla mediante la eliminación.
Constancia de condiciones.
Si, por ejemplo, en un estudio experimental deseamos estudiar dos o más grupos de sujetos,
éstos se deben someter exactamente a las mismas condiciones, tanto físicas como de lugar,
manteniendo, de esta manera, constantes las circunstancias bajo las cuales se investiga.
Balanceo.
Cuando tenemos una variable extraña que puede influir de manera definitiva en nuestro
estudio y, si no la podemos eliminar ni igualar a las condiciones de los grupos, deberemos
recurrir al balanceo. Este mecanismo distribuye en forma equitativa la presencia de la
variable extraña entre los grupos.
Contrabalanceo.
19
En algunas investigaciones se pide a los sujetos que respondan varias veces a un mismo
estímulo o a varios estímulos diferentes. Esta serie de respuestas puede provocar en los
mismos dos reacciones: por un lado, fatiga, porque los sujetos se cansan de estar
respondiendo; por otro lado, aprendizaje, ya que después de presentar 2 o 3 veces el mismo
estímulo el sujeto ya sabe cómo responder. Para evitar estos problemas, los grupos se
pueden subdividir en subgrupos para que los efectos de la fatiga y/o aprendizaje queden
anulados.
Aleatorización.
Este método de control es uno de los más sencillos y más utilizados en ciencias sociales,
sobre todo cuando se llevan a cabo estudios experimentales. Se parte del postulado de que
si la selección y distribución de los sujetos en grupos de control fue hecha al azar, podemos
inferir que las variables extrañas, desconocidas por el investigador, se habrán repartido
también al azar en ambos grupos, y así quedarían igualadas.
Una variable continua es aquella que puede asumir cualquier valor numérico y que puede
cambiar en cualquier cantidad.
Una variable discreta es aquella que tiene valores numéricos enteros previamente
establecidos, los cuales no pueden cambiarse arbitrariamente
Causalidad.
Al hablar de variables independientes y dependientes, debemos tener cuidado de no caer en
el error de afirmar que la variable dependiente es causada por la variable independiente.
A este tipo de conclusiones se puede llegar en muy contadas situaciones. En ciencias
sociales, es conveniente hablar de relaciones entre variables, y no de causas.
1.10 LA OBSERVACIÓN
Se utiliza para recolectar los datos necesarios para un estudio. La observación es un método
clásico de investigación científica; además, es la manera básica por medio de la cual
obtenemos información acerca del mundo que nos rodea.
20
Además, las observaciones se pueden realizar independientemente de que las personas
estén dispuestas a cooperar o no, a diferencia de otros métodos en los que sí necesitamos de
la cooperación de las personas para obtener la información deseada.
Observación participante:
Este tipo de observación está determinado por el hecho de que el observador participa de
manera activa dentro del grupo que se está estudiando; se identifica con él de tal manera
que el grupo lo considera uno más de sus miembros, es decir, el observador tiene una
participación tanto externa, en cuanto a actividades, como interna, en cuanto a sentimientos
e inquietudes.
Con este tipo de observación, los investigadores pueden influir en la vida del grupo.
Para resolver este problema es conveniente que más de una persona observe el mismo
fenómeno, con el fin de comparar las observaciones realizadas.
Observación no participante:
En este tipo de observación el investigador no participa de manera activa dentro del grupo
que observa. Se limita a mirar y a tomar notas sin relacionarse con los miembros del grupo.
Dependiendo de los objetivos que persiga la investigación, se empleará uno u otro tipo de
observación.
La observación participante nos puede dar una idea más clara acerca de lo que sucede
dentro de un grupo, puesto que si los sujetos ven al observador como un miembro más del
grupo se comportarán normalmente. En cambio, aplicando la observación no participante,
probablemente no se comportarán normalmente. Por otro lado, es probable que el
investigador, al no participar en la vida del grupo observado, pueda mantener más
fácilmente su objetividad.
21
Generalmente se lleva a cabo en un estudio piloto, cuando no se conoce muy bien la
muestra que se va a estudiar.
Puntos a considerar:
La población que vamos a estudiar: quiénes son, cómo se relacionan entre sí, edad, sexo,
nivel socioeconómico, etc.
Las variables que son relevantes para nuestro estudio, así como la frecuencia y duración de
las mismas.
Observación estructurada:
Es aquella que se lleva a cabo cuando se pretende probar una hipótesis, o cuando se quiere
hacer una descripción sistemática de algún fenómeno, es decir, cuando estamos realizando
un estudio o investigación en el que sabemos exactamente lo que vamos a investigar y
tenemos un diseño de investigación. Se diferencia de la observación no estructurada en el
sentido de que en esta última sólo poseemos una idea vaga acerca de lo que vamos a
observar, mientras que en la estructurada ya tenemos más claramente definidos los
objetivos que nos ayudarán a clasificar y concretar el fenómeno en cuestión. En este tipo de
observación nos basamos en tablas de frecuencias.
22
CAPÍTULO II
Para iniciar una investigación, es necesario organizar adecuadamente las actividades y tener
un conocimiento amplio sobre el tema u objeto de estudio. Hay que distinguir entre
aquellas actividades que requerirán de mayor tiempo para su concreción y aquellas que
demandan un esfuerzo personal más específico.
Antes de elaborar este anteproyecto, debe realizarse una amplia búsqueda bibliográfica, que
brindará una idea más clara del tema. También es importante relacionarse con personas que
traten o trabajen en el tema.
2.2.1 ESQUEMA.
Justificación:
Una vez que se ha seleccionado el tema de investigación, definido por el planteamiento del
problema, y establecido los objetivos, se deben indicar las motivaciones que llevan al
investigador a desarrollar el proyecto. Responde a la pregunta: ¿por qué se investiga?
Definiciones.
Objetivos:
23
Hipótesis:
Toda hipótesis constituye un juicio, o sea una afirmación o una negación de algo.
Limitaciones y delimitaciones:
Es pertinente precisar los límites del problema, su alcance, para ello es necesario tener en
cuenta la viabilidad, lugar, tiempo y financiación.
Marco de referencia:
Fundamentos teóricos, antecedentes del problema. Debe ser una búsqueda detallada y
concreta, donde el tema y la temática del objeto a investigar tengan un soporte teórico, que
se pueda debatir, ampliar, conceptualizar y concluir.
Metodología:
Cronograma:
Es un plan de trabajo o plan de actividades, que muestra la duración del proceso
investigativo.
Presupuesto.
Bibliografía.
Elaboración de la tesis.
Búsqueda de la información.
Organización.
Pueden utilizarse tanto archivos físicos como lógicos. Los archivos físicos corresponden a
fotocopias, manuscritos, recortes, fotografías, etc., que es conveniente guardar en carpetas y
rotular el tema o capítulo de investigación. Los archivos lógicos comprenden documentos
24
guardados en procesadores de textos, convenientemente clasificados y con referencias
bibliográficas.
Redacción.
Es imprescindible prestar la debida atención a la redacción, prolijidad, ortografía y
presentación.
Estilo.
El texto debe ser claro y fácil de leer, aunque no debe obviarse la escritura científica, que es
muy importante.
Las referencias bibliográficas son el modo adecuado de documentar conceptos que no son
propios (deben anotarse como pies de página).
Estructura de la tesis.
La página del título debe contener como mínimo los siguientes datos:
1.- Título.
2.- Autor.
3.- Institución.
4.- Fecha.
El índice de contenido debe contener los subtítulos de cada capítulo, así como el título del
capítulo. La introducción comienza en la página 1. Las páginas iniciales deben estar
numeradas con números romanos.
Si la tesis incluye materiales o métodos que deben incluirse, pero que impedirían una
lectura ágil de la misma, es conveniente utilizar apéndices.
Presentación.
25
Es importante no redundar en explicaciones que las mismas ilustraciones muestran, además
no se deben incluir más ilustraciones que las pertinentes. El texto debe referirse a ellas
cuando se trate de aclarar lo que no resulta obvio.
No dejar grandes espacios de papel con el fin de hacer la tesis más voluminosa.
Evitar las ideas vagas e innecesarias.
Definir la unidad de observación (elemento sobre el que vamos a registrar los datos). Las
unidades de observación pueden tener existencia natural, como una persona o una cosa –
elementos tangibles -, o pueden estar definidas artificialmente, como las distintas áreas de
una empresa.
Para que los datos sean útiles, necesitamos organizar nuestras observaciones, de modo que
podamos distinguir patrones y llegar a conclusiones lógicas.
Los especialistas en estadística seleccionan sus observaciones de manera que todos los
grupos relevantes estén representados en los datos.
Los datos pueden provenir de observaciones reales o de registros que se mantienen para
otros propósitos.
26
Los datos pueden ayudar a los responsables de tomar decisiones a hacer suposiciones bien
pensadas acerca de las causas y, por tanto, de los efectos probables de ciertas características
en situaciones dadas. También el conocimiento de tendencias adquirido de la experiencia
previa puede permitir estar al tanto de posibles resultados y actuar en consecuencia.
Cuando los datos son ordenados de manera compacta y útil, los responsables de tomar
decisiones pueden obtener información confiable sobre el ambiente y usarla para tomar
decisiones inteligentes. Los administradores deben tener mucho cuidado y asegurar que los
datos utilizados están basados en suposiciones e interpretaciones correctas.
¿De dónde vienen los datos? ¿La fuente es parcial? ¿Es posible que haya un interés en
proporcionar datos que conduzcan a una cierta conclusión más que a otras?
¿Los datos comprueban o contradicen otras evidencias que se poseen?
¿Hace falta alguna evidencia cuya ausencia podría ocasionar que se llegue a una conclusión
diferente?
¿Cuántas observaciones se tienen? ¿Representan a todos los grupos que se desea estudiar?
¿La conclusión es lógica? ¿Se ha llegado a conclusiones que nuestros datos no confirman?
¿Vale la pena usar los datos o debemos esperar y recabar más información antes de actuar?
Muestra y población son términos relativos. Una población es un todo y una muestra es una
fracción o segmento de ese todo.
Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los
cuales intentamos sacar conclusiones. Debemos definir dicha población de modo que quede
claro cuándo un cierto elemento pertenece o no a la población.
Cualquier grupo que cumple con los requisitos de la población, puede constituir una
muestra, siempre y cuando el grupo sea una fracción de la población completa.
27
2.3.5. BÚSQUEDA DE UN PATRÓN SIGNIFICATIVO EN LOS DATOS:
Existen muchas formas de organizar los datos. Podemos sólo colectarlos y mantenerlos en
orden; o si las observaciones están hechas con números, entonces podemos hacer una lista
de los puntos de datos de menor a mayor según su valor numérico. Pero si los datos son
trabajadores especializados o los distintos tipos de automóviles que ensamblan todos los
fabricantes, debemos organizarlos de manera distinta. Necesitaremos presentar los puntos
de datos en orden alfabético o mediante algún principio de organización. Una forma común
de organizar los datos consiste en dividirlos en categorías o clases parecidas y luego contar
el número de observaciones que quedan dentro de cada categoría. Este método produce una
distribución de frecuencias.
El objetivo de organizar los datos es permitirnos ver rápidamente algunas de las
características de los datos que hemos recogido: el alcance (los valores mayor y menor),
patrones evidentes, alrededor de qué valores tienden a agruparse los datos, qué valores
aparecen con mayor frecuencia, etc.
2.3.6. RECOMENDACIONES:
Si se trabaja con muestras, definir las condiciones que deben reunir antes de extraerlas.
La información obtenida, antes de ser organizada y analizada, se conoce como datos sin
procesar puesto que aún no han sido tratados mediante ningún método estadístico.
La cantidad de datos más grande y los detalles más minuciosos pueden no contener la
información más útil para la toma de decisiones administrativa. Una parte importante de la
planeación de sistemas de información administrativa consiste en resumir y presentar los
datos de modo que se pueda obtener la información crítica de manera rápida y sencilla.
La ordenación de datos es una de las formas más sencillas de presentarlos, los forma en
orden ascendente o descendente.
Ventajas:
28
Podemos dividir fácilmente los datos en secciones.
Podemos ver si algunos de los valores aparecen más de una vez en ese ordenamiento.
En ocasiones, un ordenamiento de datos no resulta útil. Debido a que da una lista de todos
los valores, es una forma incómoda de mostrar grandes cantidades de datos.
La distribución de frecuencias:
Una forma en que podemos comprimir los datos es en la tabla de frecuencias o distribución
de frecuencias. Las distribuciones de frecuencias sacrifican algunos detalles, pero ofrecen
nuevas perspectivas sobre los patrones de datos.
Una distribución de frecuencias es una tabla en la que los datos se organizan en clases, es
decir, en grupos de valores que describen una característica de los datos.
También podemos expresar la frecuencia de cada valor como una fracción o un porcentaje
del número total de observaciones. Para obtener este valor, dividimos la frecuencia de esa
clase entre el número total de observaciones del conjunto de datos. La respuesta se puede
expresar como una fracción, un número decimal o un porcentaje.
La suma de todas las frecuencias relativas es igual a 1.00 o a 100%. Esto es así debido a
que una distribución de frecuencias relativas aparea a cada clase con su fracción o
porcentaje apropiados del total de datos. Por consiguiente, las clases que aparecen en
cualquier distribución de frecuencias, ya sean relativas o simples, son completamente
inclusivas. Todos los datos caen en una u otra categoría. Las clases son mutuamente
exclusivas, es decir, ningún punto de dato cae en más de una categoría.
La categoría "otros" se conoce como clase de extremo abierto cuando permite que el
extremo inferior o el superior de una clasificación cuantitativa no estén limitados.
29
Los esquemas de clasificación pueden ser tanto cuantitativos como cualitativos y tanto
discretos como continuos. Las clases discretas son entidades separadas que no pasan de una
clase discreta a otra sin que haya un rompimiento. Los datos discretos son aquellos que
pueden tomar sólo un número limitado de valores.
Los datos continuos pasan de una clase a otra sin que haya un rompimiento. Implican
mediciones numéricas. Los datos continuos pueden expresarse con números fraccionarios o
con enteros.
Las variables discretas son cosas que se pueden contar y las continuas son cosas que
aparecen en algún punto de una escala.
Pasos.
Decidir el tipo y número de clases para dividir los datos. De acuerdo con la medida
cuantitativa o un atributo cualitativo. Necesitamos decidir cuántas clases distintas usar y el
alcance que cada clase debe cubrir. El alcance total debe dividirse entre clases iguales, esto
es, el ancho del intervalo, tomado desde el principio de una clase hasta el principio de la
clase siguiente, necesita ser el mismo para todas las clases.
El número de clases depende del número de puntos de datos y del alcance de los datos
recolectados. Cuantos más puntos de datos se tengan o cuanto más grande sea el alcance,
más clases se necesitarán para dividir los datos. Como regla general, los estadísticos rara
vez utilizan menos de 6 y más de 15 clases.
Debido a que necesitamos hacer los intervalos de clase de igual tamaño, el número de
clases determina el ancho de cada clase.
Ancho de los intervalos de clase = (valor unitario siguiente después del valor más grande de
los datos – valor más pequeño de los datos) / número total de intervalos.
Debemos utilizar el siguiente valor más alto de las mismas unidades, ya que estamos
midiendo el intervalo entre el primer valor de una clase y el primer valor de la siguiente.
Clasificar los puntos de datos en clases y contar el número de datos que hay en cada clase.
Las gráficas dan los datos en un diagrama de dos dimensiones. Sobre el eje horizontal
podemos mostrar los valores de la variable (la característica que estamos midiendo). Sobre
el eje vertical señalamos las frecuencias de las clases mostradas en el eje horizontal.
30
Las gráficas de distribuciones de frecuencias simples y de distribuciones de frecuencias
relativas son de utilidad debido a que resaltan y aclaran los patrones que no se pueden
distinguir fácilmente en las tablas. Atraen la atención del que las observa hacia los patrones
existentes en los datos. Las gráficas pueden también ayudarnos a resolver problemas
concernientes a las distribuciones de frecuencias. Nos permitirán estimar algunos valores
con sólo una mirada y nos proporcionarán una verificación visual sobre la precisión de
nuestras soluciones.
Histogramas:
Un histograma que utiliza las frecuencias relativas de los puntos de datos de cada una de las
clases, en lugar de usar el número real de puntos, se conoce como histograma de
frecuencias relativas. Este tipo de histograma tiene la misma forma que un histograma de
frecuencias absolutas construido a partir del mismo conjunto de datos. Esto es así debido a
que en ambos, el tamaño relativo de cada rectángulo es la frecuencia de esa clase
comparada con el número total de observaciones.
Polígonos de frecuencias:
Se añaden dos clases, una en cada extremo de la escala de valores observados. Estas dos
nuevas clases que contienen cero observaciones permiten que el polígono alcance el eje
horizontal en ambos extremos de la distribución.
Un polígono de frecuencias es sólo una línea que conecta los puntos medios de todas las
barras de un histograma. Por consiguiente, podemos reproducir el histograma mediante el
trazado de líneas verticales desde los límites de clase y luego conectando tales líneas con
rectas horizontales a la altura de los puntos medios del polígono.
Un polígono de frecuencias que utiliza frecuencias relativas de puntos de datos en cada una
de las clases, en lugar del número real de puntos, se conoce como polígono de frecuencias
relativas. Este polígono tiene la misma forma que el polígono de frecuencias construido a
31
partir del mismo conjunto de datos, pero con una escala diferente en los valores del eje
vertical.
El área de cada rectángulo, en relación con el resto, muestra la proporción del número total
de observaciones que se encuentran en esa clase.
Se vuelve cada vez más liso y parecido a una curva conforme aumentamos el número de
clases y el número de observaciones.
Ojivas.
Una distribución de frecuencias acumuladas nos permite ver cuántas observaciones están
por encima de ciertos valores, en lugar de hacer un mero registro del número de elementos
que hay dentro de los intervalos.
32
sucesivos no hay valores intermedios. Las frecuencias acumuladas se grafican por medio de
una ojiva en forma de escalera, debido a que la frecuencia aumenta de a saltos.
2.3.9. RECOMENDACIONES:
Usar 5 clases como mínimo y 15 como máximo para agrupar los datos, en función del
número de datos disponibles.
Tener cuidado con la clasificación automática que hacen los paquetes estadísticos.
Al calcular frecuencias relativas – como proporción – trabajar con cuatro dígitos después de
la coma, para evitar errores de redondeo en la suma.
2.3.10. CONCEPTOS:
Unidad de observación: persona o casa sobre la que se mide una o varias características de
interés.
Población: conjunto formado por todas las unidades objeto de un estudio estadístico.
Colección de todos los elementos que se están estudiando y sobre los cuales intentamos
llegar a conclusiones.
33
Arreglo de datos: organización de los datos sin procesar por observación, tomados en orden
ascendente o descendente.
Clase de extremo abierto: clase que permite que el extremo superior o inferior de un
esquema de clasificación cuantitativo no tenga límite.
Datos continuos: datos que pueden pasar de una clase a la siguiente sin interrumpirse y que
pueden expresarse mediante números enteros o fraccionarios. Datos numéricos que admiten
infinitos valores entre dos valores cualesquiera; generalmente surgen de una medición.
Datos discretos: datos que no pasan de una clase a la siguiente sin que haya una
interrupción; esto es, donde las clases representan categorías o cuentas distintas que pueden
representarse mediante números enteros. Datos numéricos que no admiten valores
intermedios entre dos valores sucesivos; generalmente surgen de un conteo.
Datos sin procesar: información antes de ser organizada o analizada por métodos
estadísticos. Conjunto de datos que no han recibido ningún tratamiento estadístico.
Datos tratados: Conjunto de datos que han sido objeto de algún tipo de ordenamiento o
procesamiento.
34
fracción de elementos de la clase. Representación gráfica de la distribución de frecuencias
(absoluta o relativa) de una variable continúa.
Polígono de frecuencias: línea que une los puntos medios de cada clase de un conjunto de
datos, trazada a la altura correspondiente a la frecuencia de datos. Representación gráfica
de la distribución de frecuencias en forma suavizada de una variable continúa.
Frecuencia absoluta: número de veces que se repite un determinado valor de una variable o
atributo.
Estadística sumaria.
Podemos usar una serie de números conocidos como estadística sumaria para describir las
características del conjunto de datos. Dos de estas características son de particular
importancia para los responsables de tomar decisiones: la de tendencia central y la de
dispersión.
Tendencia central: la tendencia central se refiere al punto medio de una distribución. Las
medidas de tendencia central se conocen como medidas de posición.
Sesgo: las curvas que representan los puntos de datos de un conjunto de datos pueden ser
simétricas o sesgadas. Las curvas simétricas, tienen una forma tal que una línea vertical que
pase por el punto más alto de la curva dividirá el área de ésta en dos partes iguales. Cada
parte es una imagen espejo de la otra. En las curvas sesgadas, los valores de su distribución
de frecuencias están concentrados en el extremo inferior o en el superior de la escala de
medición del eje horizontal. Los valores no están igualmente distribuidos. Las curvas
pueden estar sesgadas hacia la derecha (positivamente sesgadas) o sesgadas hacia la
izquierda (negativamente sesgadas).
35
Para encontrar la media aritmética, sumamos los valores y el resultado lo dividimos entre el
número de observaciones.
Símbolos convencionales:
Una muestra de una población consiste en n observaciones, con una media de x (léase equis
testada). Las medidas que calculamos para una muestra se conocen como estadística.
La notación es diferente cuando calculamos medidas para la población entera, es decir, para
el grupo que contiene a todos los elementos que estamos describiendo. La media de una
población se simboliza con µ (letra griega mi). El número de elementos de una población se
denota con la letra mayúscula cursiva N. Por lo general, en estadística utilizamos letras del
alfabeto latino para simbolizar la información sobre las muestras y letras del griego para
referirnos a la información sobre poblaciones.
Media de la población:
µ = ∑x / N
x = ∑x / n
Para calcular esta media, sumamos todas las observaciones. Los estadísticos se refieren a
este tipo de datos como datos no agrupados.
Una distribución de frecuencias consta de datos agrupados en clases. Cada valor de una
observación cae dentro de alguna de las clases. No sabemos el valor individual de cada
observación. A partir de la información de la tabla, podemos calcular fácilmente una
estimación del valor de la media de estos datos agrupados.
De haber usado los datos originales sin agrupar, podríamos haber calculado el valor real de
la media.
Para encontrar la media aritmética de datos agrupados, primero calculamos el punto medio
de cada clase. Para lograr que los puntos medios queden en cifras cerradas, redondeamos
las cantidades. Después, multiplicamos cada punto medio por la frecuencia de las
observaciones de dicha clase, sumamos todos los resultados y dividimos esta suma entre el
número total de observaciones de la muestra.
x = _ (f x) / n
f = frecuencia de observaciones de cada clase
x= punto medio de cada clase de la muestra
n = número de observaciones de la muestra
Codificación:
36
Mediante esta técnica, podemos eliminar el problema de tener puntos medios muy grandes
o inconvenientes. En lugar de utilizar los puntos medios reales para llevar a efecto nuestros
cálculos, podemos asignar enteros consecutivos de valor pequeño, conocidos como
códigos, a cada uno de los puntos medios.
El entero cero puede ser asignado a cualquier punto medio, pero para que nuestros enteros
sean pequeños, asignaremos cero al punto medio de la parte media de la distribución (o la
parte más cercana a ésta). Podemos asignar enteros negativos a los valores menores a dicho
punto medio y enteros positivos a los valores más grandes.
Los estadísticos usan xo para representar el punto medio al que se le ha asignado el código 0
y u para el punto medio codificado:
x = xo + w [(u f)] / n
w = ancho numérico del intervalo de clase
u = código asignado a cada punto medio de clase
Cada conjunto de datos tiene una media, es una medida que puede calcularse y es única
debido a que cada conjunto de datos posee una y sólo una media.
Desventajas:
Puede verse afectada por valores extremos que no son representativos del resto de los datos.
Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de dato de
nuestro cálculo.
Somos incapaces de calcular la media para un conjunto de datos que tiene clases de
extremo abierto, ya sea en el inferior o en el superior de la escala.
2.4.1. SUGERENCIA:
La media aritmética, a menudo, puede mal interpretarse si los datos no entran en un grupo
homogéneo.
La mediana:
37
La mediana es un solo valor calculado a partir del conjunto de datos que mide la
observación central de éstos. Esta sola observación es la más central o la que está más en
medio en el conjunto de números. La mitad de los elementos están por encima de este
punto y la otra mitad está por debajo.
Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden
descendente o ascendente. Si el conjunto de datos contiene un número impar de elementos,
el de en medio en el arreglo es la mediana. Si hay un número par de observaciones, la
mediana es el promedio de los dos elementos de en medio.
Mediana = (n + 1) / 2
Sumar las frecuencias de cada clase para encontrar la clase que contiene a ese elemento
más central.
Determinar el ancho de cada paso para pasar de una observación a otra en la clase mediana,
dividiendo el intervalo de cada clase entre el número de elementos contenido en la clase.
Determinar el número de pasos que hay desde el límite inferior de la clase mediana hasta el
elemento correspondiente a la mediana.
Calcular el valor estimado del elemento mediano multiplicando el número de pasos que se
necesitan para llegar a la observación mediana por el ancho de cada paso. Al producto
sumarle el valor del límite inferior de la clase mediana.
38
Los valores extremos no afectan a la mediana tan intensamente como a la media. La
mediana es fácil de entender y se puede calcular a partir de cualquier tipo de datos – incluso
a partir de datos agrupados con clases de extremo abierto – a menos que la mediana entre
en una clase de extremo abierto.
Podemos encontrar la mediana incluso cuando nuestros datos son descripciones
cualitativas, en lugar de números.
Ciertos procedimientos estadísticos que utilizan la mediana son más complejos que
aquellos que utilizan la media. Debido a que la mediana es una posición promedio,
debemos ordenar los datos antes de llevar a cabo cualquier cálculo. Esto implica consumo
de tiempo para cualquier conjunto de datos que contenga un gran número de elementos. Por
consiguiente, si deseamos utilizar una estadística de muestra para estimar un parámetro de
población, la media es más fácil de usar que la mediana.
La moda:
La moda es una medida de tendencia central diferente de la media, pero un tanto parecida a
la mediana, pues en realidad no se calcula mediante algún proceso aritmético ordinario. La
moda es aquel valor que más se repite en el conjunto de datos.
Por esta razón, siempre que utilizamos la moda como medida de tendencia central de un
conjunto de datos, debemos calcular la moda de datos agrupados (buscar la clase modal).
La moda, al igual que la mediana, se puede utilizar como una posición central para datos
tanto cualitativos como cuantitativos.
39
También, al igual que la mediana, la moda no se ve mayormente afectada por los valores
extremos. Incluso si los valores extremos son muy altos o muy bajos, nosotros escogemos
el valor más frecuente del conjunto de datos como el valor modal. Podemos utilizar la moda
sin importar qué tan grandes o qué tan pequeños sean los valores del conjunto de datos, e
independientemente de cuál sea su dispersión.
La podemos utilizar aun cuando una o más clases sean de extremo abierto.
Muy a menudo, no existe un valor modal debido a que el conjunto de datos no contiene
valores que se presenten más de una vez. En otras ocasiones, cada valor es la moda, pues
cada uno de ellos se presenta el mismo número de veces. Otra desventaja consiste en que
cuando los datos contienen dos, tres o más modas, resultan difíciles de interpretar y
comparar.
En tales casos, no es necesario escoger la medida de tendencia central, pues ya está hecha la
selección.
En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la moda
todavía se encuentra en el punto más alto de la distribución, la mediana está hacia la
derecha de la moda y la media se encuentra todavía más a la derecha de la moda y la
mediana.
En una distribución negativamente sesgada, la moda sigue siendo el punto más alto de la
distribución, la mediana está hacia la izquierda de ella y la media se encuentra todavía más
a la izquierda de la moda y la mediana.
2.4.2. SUGERENCIA
La selección de la media, la mediana o la moda, en ocasiones, depende de la práctica
común de una industria en particular (salario medio de los obreros, precio mediano de una
casa, familia modal para el diseño de automóviles).
40
La dispersión:
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo
nos revelan una parte de la información que necesitamos acerca de las características de los
datos.
Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su
dispersión, extensión o variabilidad.
Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una
amplia dispersión de valores con respecto al centro de distribución o esto presenta riesgos
inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones
que tengan las dispersiones más grandes.
Medidas de dispersión:
Alcance:
Las distribuciones de extremo abierto no tienen alcance, pues no existe un valor más alto o
más bajo en la clase de extremo abierto.
Alcance interfractil:
41
En una distribución de frecuencias, una fracción o proporción dada de los datos cae en un
fractil o por debajo de éste. La mediana, por ejemplo, es el fractil 0,5, puesto que la mitad
de los datos es menor o igual a este valor. Los fractiles son parecidos a los porcentajes. En
una distribución cualquiera, el 25% de los datos está en el fractil 0,25 o por debajo de éste;
igualmente, 25% de los datos cae en el vigésimo quinto percentil o por debajo de éste. El
alcance interfractil es una medida de la dispersión entre dos fractiles de una distribución de
frecuencias, es decir, la diferencia entre los valores de los dos fractiles.
Los fractiles tienen nombres especiales, dependiendo del número de partes iguales en que
se dividen los datos. Los fractiles que los dividen en 10 partes iguales se conocen como
deciles. Los cuartiles dividen los datos en cuatro partes iguales. Los percentiles dividen el
conjunto de datos en 100 partes iguales.
Alcance intercuartil:
El alcance intercuartil mide aproximadamente qué tan lejos de la mediana tenemos que ir
en cualquiera de las dos direcciones antes de que podamos recorrer una mitad de los valores
del conjunto de datos. Para calcular este alcance, dividimos nuestros datos en cuatro partes,
cada una de las cuales contiene 25% de los elementos de la distribución. Los cuartiles son,
entonces, los valores más alto y más bajo de estas cuatro partes, y el alcance intercuartil es
la diferencia entre los valores del primer cuartil y el tercer cuartil.
2.4.3. SUGERENCIA
El punto fractil es siempre el punto en el o debajo del cual cae la proporción establecida de
valores.
Las descripciones más comprensivas de la dispersión son aquellas que tratan con la
desviación promedio con respecto a alguna medida de tendencia central. Dos de tales
medidas son la varianza y la desviación estándar. Ambas medidas nos dan una distancia
promedio de cualquier observación del conjunto de datos con respecto a la media de la
distribución.
Varianza de la población:
Cada población tiene una varianza, que se simboliza con _ 2 (sigma cuadrada). Para calcular
la varianza de una población, dividimos la suma de las distancias al cuadrado entre la media
y cada elemento de la población entre el número total de observaciones de dicha población.
_ 2 = _ (x - _)2 / N
_ 2 = varianza de la población.
x = elemento u observación.
_ = media de la población.
N = número total de elementos de la población.
42
Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas unidades
no son intuitivamente claras o fáciles de interpretar. Por esta razón, tenemos que hacer un
cambio significativo en la varianza para calcular una medida útil de la desviación, que sea
menos confusa. Esta medida se conoce como la desviación estándar, y es la raíz cuadrada
de la varianza. La desviación estándar, entonces, está en las mismas unidades que los datos
originales.
Como la varianza es el promedio de las distancias al cuadrado que van desde las
observaciones a la media, la desviación estándar es la raíz cuadrada del promedio de las
distancias al cuadrado que van desde las observaciones a la media. La desviación estándar
está en las mismas unidades que las que se usaron para medir los datos.
La raíz cuadrada de un número positivo puede ser tanto positiva como negativa. Cuando
tomamos la raíz cuadrada de la varianza para calcular la desviación estándar, los
estadísticos solamente consideran la raíz cuadrada positiva.
Para calcular la varianza o la desviación estándar, construimos una tabla utilizando todos
los elementos de la población.
La desviación estándar nos permite determinar, con un buen grado de precisión, dónde
están localizados los valores de una distribución de frecuencias con relación a la media. El
teorema de Chebyshev dice que no importa qué forma tenga la distribución, al menos 75%
de los valores caen dentro de + 2 desviaciones estándar a partir de la media de la
distribución, y al menos 89% de los valores caen dentro de + 3 desviaciones estándar a
partir de la media.
Aproximadamente 99% de los valores estará en el intervalo que va desde tres desviaciones
estándar por debajo de la media hasta tres desviaciones estándar por arriba de la media.
Resultado estándar:
La desviación estándar es también útil para describir qué tan lejos las observaciones
individuales de una distribución de frecuencias se apartan de la media de la distribución.
43
Una medida que se conoce como resultado estándar nos da el número de desviaciones
estándar que una observación en particular ocupa por debajo o por encima de la media:
Resultado estándar = (x - _) / _
Cálculo de la varianza y la desviación estándar utilizando datos agrupados:
_ 2 = _ f(x - _)2 / N
_ 2 = varianza de la población.
x = punto medio de cada una de las clases.
_ = media de la población.
N = número total de elementos de la población.
f = frecuencia de cada una de las clases.
_ = √_ 2
Para calcular la varianza y la desviación estándar de una muestra, utilizamos las mismas
fórmulas, sustituyendo _ por x y N con n – 1.
s2 = _ (x - x)2 / (n – 1)
Al igual que utilizamos la desviación estándar de la población para derivar los resultados
estándar de la misma, podemos también usar la desviación estándar de la muestra para
calcular los resultados estándar de la muestra. Estos resultados indican a cuántas
desviaciones estándar se halla una observación en particular por arriba o por debajo de la
media de la muestra.
Resultado estándar de la muestra = (x – x) / s
2.4.4. SUGERENCIA:
Las letras griegas siempre se refieren a parámetros de la población y las letras latinas se
refieren a estadísticas de la muestra.
44
La desviación estándar no puede ser la única base para la comparación de dos
distribuciones.
Si tenemos una desviación estándar de 10 y una media de 5, los valores varían en una
cantidad que es el doble de la media misma. Si, por otro lado, tenemos una desviación
estándar de 10 y una media de 5.000, la variación con respecto a la media es insignificante.
Lo que necesitamos es una medida relativa que nos proporcione una estimación de la
magnitud de la desviación con respecto a la magnitud de la media. El coeficiente de
variación es una de estas medidas relativas de dispersión. Se relaciona la desviación
estándar y la media, expresando la desviación estándar como porcentaje de la media.
Coeficiente de variación = (_ / _) * 100
2.4.5. CONCEPTOS:
Alcance: distancia entre los valores más bajo y más alto de un conjunto de datos.
Alcance intercuartil: diferencia entre los valores del primer y tercer cuartiles; esta
diferencia representa el alcance de la mitad central del conjunto de datos.
Clase mediana: clase de una distribución de frecuencias que contiene el valor mediano de
un conjunto de datos.
45
Distribución bimodal: distribución de puntos de datos en la que dos valores se presentan
con más frecuencia que los demás elementos del conjunto de datos.
Fractil: en una distribución de frecuencias, es la posición de un valor en, o por encima de,
una fracción dada de los datos.
Mediana: punto situado a la mitad de conjunto de datos, medida de localización que divide
al conjunto de datos en dos partes iguales.
Moda: el valor que más a menudo se repite en un conjunto de datos. Está representado por
el punto más alto de la curva de distribución de un conjunto de datos.
Parámetros: valores numéricos que describen las características de una población completa,
representados generalmente por letras griegas.
Sesgo: grado en que una distribución de puntos está concentrada en un extremo o en el otro;
falta de simetría. Asimetría en distribuciones de frecuencias no simétricas.
46
Teorema de Chebyshev: no importa qué forma tenga la distribución, al menos 75% de los
valores de la población caerán dentro de dos desviaciones estándar a partir de la media, y al
menos 89% caerá dentro de tres desviaciones estándar.
Revisar cuidadosamente los datos antes de usarlos; verificar que no contengan errores;
verificar en particular los valores extremos.
Elaborar histogramas o cualquier otro tipo de gráficos que permita visualizar la forma y las
características principales de la distribución de frecuencias.
Usar en forma conjunta una media de posición y una de dispersión (como mínimo) para
analizar el comportamiento de la variable.
Calcular la media aritmética con los datos en bruto – sin agrupar – siempre que se requiera
su valor exacto.
Dar preferencia al cálculo de la mediana como medida de posición, cuando la serie tiene
pocos datos e incluye valores extremos.
Tanto la mediana como la moda son valores de la variable (no confundir con las
frecuencias a las que están asociadas).
Comparar, siempre que se pueda, media, mediana y moda para determinar el sesgo de la
distribución.
El rango o alcance es una medida de dispersión poco apropiada para describir series con
muchos datos.
La desviación estándar es preferible a la varianza porque se expresa en las mismas unidades
de la variable.
2.5. PROBABILIDAD:
47
Historia de la probabilidad.
Jacob Beronoulli (1654 - 1705), Abraham de Moivre (1667 - 1754), el reverendo Thomas
Bayes (1702 - 1761) y Joseph Lagrange (1736 - 1813) desarrollaron fórmulas y técnicas
para el cálculo de la probabilidad. En el siglo XIX, Pierre Simon, marqués de Laplace
(1749 - 1827), unificó todas estas primeras ideas y compiló la primera teoría general de la
probabilidad.
La teoría de la probabilidad fue aplicada con éxito en las mesas de juego y, lo que es más
importante, en problemas sociales y económicos. La industria de seguros requería un
conocimiento preciso acerca de los riesgos de pérdida. Muchos centros de aprendizaje
estudiaron la probabilidad como una herramienta para el entendimiento de los fenómenos
sociales.
Nuestra necesidad de tratar con total incertidumbre nos lleva a estudiar y utilizar la teoría
de la probabilidad. Al organizar la información y considerarla de manera sistemática,
seremos capaces de reconocer nuestras suposiciones, comunicar nuestro razonamiento a
otras personas y tomar una decisión más sólida.
La actividad que origine uno de dichos eventos se conoce como experimento aleatorio.
Se dice que dos eventos son mutuamente excluyentes si uno y sólo uno de ellos puede tener
lugar a un tiempo.
Cuando en una lista de los posibles eventos que pueden resultar de un experimento se
incluyen todos los resultados posibles, se dice que la lista es colectivamente exhaustiva. En
una lista colectivamente exhaustiva se presentan todos los resultados posibles.
Existen tres maneras básicas de clasificar la probabilidad. Estas tres formas presentan
planteamientos conceptuales bastante diferentes:
Planteamiento clásico.
Planteamiento de frecuencia relativa.
48
Planteamiento subjetivo.
Probabilidad clásica:
Se define la probabilidad de que un evento ocurra como el número de resultados en los que
se presenta el evento / número total de resultados posibles.
Este método utiliza la frecuencia relativa de las presentaciones pasadas de un evento como
una probabilidad. Determinamos qué tan frecuente ha sucedido algo en el pasado y usamos
esa cifra para predecir la probabilidad de que suceda de nuevo en el futuro.
Una dificultad presente con este planteamiento es que la gente lo utiliza a menudo sin
evaluar el número suficiente de resultados.
Probabilidades subjetivas:
Las probabilidades subjetivas están basadas en las creencias de las personas que efectúan la
estimación de probabilidad. La probabilidad subjetiva se puede definir como la
probabilidad asignada a un evento por parte de un individuo, basada en la evidencia que se
49
tenga disponible. Esa evidencia puede presentarse en forma de frecuencia relativa de
presentación de eventos pasados o puede tratarse simplemente de una creencia meditada.
Las valoraciones subjetivas de la probabilidad permiten una más amplia flexibilidad que los
otros dos planteamientos. Los tomadores de decisiones pueden hacer uso de cualquier
evidencia que tengan a mano y mezclarlas con los sentimientos personales sobre la
situación.
Las asignaciones de probabilidad subjetiva se dan con más frecuencia cuando los eventos
se presentan sólo una vez o un número muy reducido de veces.
Como casi todas las decisiones sociales y administrativas de alto nivel se refieren a
situaciones específicas y únicas, los responsables de tomar decisiones hacen un uso
considerable de la probabilidad subjetiva.
2.5.1. SUGERENCIA:
Reglas de probabilidad.
Una probabilidad sencilla quiere decir que sólo un evento puede llevarse a cabo. Se le
conoce como probabilidad marginal o incondicional.
Usamos una representación gráfica, conocida como diagrama de Venn. El espacio muestral
completo se representa mediante un rectángulo y los eventos se representan como partes de
ese rectángulo. Si dos eventos son mutuamente excluyentes, las partes correspondientes de
éstos en el rectángulo, no se traslaparán. Si dos eventos no son mutuamente excluyentes,
sus partes correspondientes en el rectángulo sí se traslapan.
Debido a que las probabilidades se comportan en mucho como si fueran áreas, tomaremos
el área del rectángulo como la unidad. Entonces la probabilidad de que suceda un evento es
su área que le corresponde dentro del rectángulo.
50
A menudo, estamos interesados en la probabilidad de que una cosa u otra suceda. Si estos
dos eventos son mutuamente excluyentes, podemos expresar esta probabilidad haciendo
uso de la regla de adición para eventos mutuamente excluyentes:
P (A o B) = P (A) + P (B)
Existe un caso especial, para cualquier evento A, tenemos que éste sucede o no sucede. De
modo que los eventos A y no A son mutuamente excluyentes y exhaustivos:
P(A) + P (no A) = 1
P(A) = 1 - P (no A)
Regla de adición para eventos que no son mutuamente excluyentes.
Cuando se presentan dos eventos, el resultado del primero puede tener un efecto en el
resultado del segundo, o puede no tenerlo. Esto es, los eventos pueden ser dependientes o
independientes. Existen tres tipos de probabilidades que se presentan bajo independencia
estadística:
1.- Marginal.
2.- Conjunta.
3.- Condicional.
51
La probabilidad condicional es la probabilidad de que un segundo evento (B) se presente, si
un primer evento (A) ya ha sucedido.
2.5.2. SUGERENCIA:
Una buena verificación de los cálculos para obtener la probabilidad conjunta consiste en
recordar que para cada intento, el total de probabilidades resultantes debe sumar 1.
1.- Condicional.
2.- Conjunta.
3.- Marginal.
2.5.3. SUGERENCIA:
52
la "probabilidad de que tanto A como B se presenten". Y la probabilidad marginal P(A) es
la "probabilidad de que se presenta A, haya sucedido o no el evento B".
Conceptos:
Árbol de probabilidades: representación gráfica que muestra los resultados posibles de una
serie de experimentos y sus respectivas probabilidades.
Evento: uno o más de los resultados posibles de hacer algo, o uno de los resultados posibles
de realizar un experimento.
Eventos exhaustivamente colectivos: lista de eventos que representa todos los resultados
posibles de un experimento.
Experimento aleatorio: actividad que tiene como resultado o que produce un evento. Prueba
donde existen dos o más resultados posibles, y no se pude anticipar cuál de ellos va a
ocurrir.
Probabilidad condicional: probabilidad de que se presente un evento, dado que otro evento
ya se ha presentado.
53
Probabilidad conjunta: probabilidad de que se presenten dos o más eventos
simultáneamente o en sucesión.
Cuando se usa la regla del producto, averiguar si los eventos son dependientes o
independientes.
Siempre que sea posible, apoyar la interpretación del problema mediante el empleo de
diagramas de Venn.
La probabilidad es un número que nunca puede tener valor negativo, ni ser mayor que 1.
Introducción.
Verificar el modelo.
54
Decidir su aceptación o volver al paso 1.
Para ejecutar el paso 1, podemos optar por una amplia gama de modelos de probabilidad,
desarrollados para representar distintos tipos de variables y diferentes fenómenos
aleatorios. Por lo tanto, el problema se reduce a elegir el modelo más apropiado para el caso
en estudio.
La distribución binomial.
Esta distribución describe una variedad de procesos de interés para los administradores y
describe datos discretos, no continuos, que son resultado de un experimento conocido como
proceso de Bernoulli.
La probabilidad del resultado de cualquier intento permanece fija con respecto al tiempo.
Fórmula binomial:
Probabilidad de r éxitos en n ensayos = n! / [r! (n - r)!] pr qn - r
p = probabilidad característica o probabilidad de tener éxito
q = 1 - p = probabilidad de fracaso
r = número de éxitos deseados
n = número de intentos hechos
Generalizaciones:
Cuando p es pequeña (0,1), la distribución binomial está sesgada hacia la derecha.
Cuando p aumenta (0,3 por ejemplo), el sesgo es menos notable.
Cuando p = 0,5, la distribución binomial es simétrica.
Cuando p es mayor que 0,5, la distribución está sesgada hacia la izquierda.
Las probabilidades para 0,3, por ejemplo, son las mismas para 0,7, excepto que los valores
de p y q están invertidos. Esto es cierto para cualquier pareja de valores p y q
complementarios.
55
Cumplimiento de las condiciones del proceso de Bernoulli.
La distribución de Poisson.
La distribución de Poisson se utiliza para describir cierto tipo de procesos, entre los que se
encuentran la distribución de llamadas telefónicas que llegan a un conmutador, la demanda
(necesidades) de los pacientes que requieren servicio en una institución de salud, las
llegadas de camiones a una caseta de cobro y el número de accidentes registrados en una
cierta intersección de calles. Estos ejemplos tienen en común un elemento: pueden ser
descritos mediante una variable aleatoria discreta que toma valores enteros (0, 1, 2...).
56
La distribución de Poisson puede ser una razonable aproximación a la binomial, pero sólo
bajo ciertas condiciones. Tales condiciones se presentan cuando n es grande y p es pequeña,
esto es, cuando el número de ensayos es grande y la probabilidad binomial de tener éxito es
pequeña. La regla que utilizan con más frecuencia los estadísticos, es que la distribución de
Poisson es una buena aproximación de la distribución binomial cuando n es igual o mayor
que 20 y p es igual o menor que 0,05. En los casos en que se cumplen estas condiciones,
podemos sustituir la media de la distribución binomial (np) en lugar de la media de la
distribución de Poisson (l).
2.6.1. SUGERENCIA:
El uso de una distribución para aproximar a otra es una práctica bastante común en
probabilidad y estadística. La idea consiste en buscar situaciones en las que una
distribución (como la de Poisson), cuyas probabilidades son relativamente fáciles de
calcular, tiene valores que se encuentran razonablemente cercanos a las de otra distribución
(como la binomial) cuyas probabilidades implican cálculos más complicados.
Habitúese a utilizar las tablas provistas por la bibliografía para calcular probabilidades.
Ahorrará tiempo y evitará errores de cálculo.
Para calcular probabilidades acumuladas, del tipo P(X > x), P(X < x) o P(x < X < x),
también existen valores tabulados en textos especializados.
La variable puede tomar cualquier valor que esté en un intervalo de valores dado, y la
distribución de probabilidad es continua.
57
Tiene algunas propiedades que la hacen aplicable a un gran número de situaciones en las
que es necesario hacer inferencias mediante la toma de muestras. La distribución normal es
una útil distribución de muestreo.
La curva tiene un solo pico; por tanto, es unimodal. Tiene forma de campana.
Para definir una distribución normal de probabilidad necesitamos definir sólo dos
parámetros: la media y la desviación estándar.
No importa cuáles sean los valores de m y s para una distribución de probabilidad normal,
el área bajo la curva es 1,00, de manera que podemos pensar en áreas bajo la curva como si
fueran probabilidades.
Matemáticamente:
58
Las tablas estadísticas indican porciones del área bajo la curva normal que están contenidas
dentro de cualquier número de desviaciones estándar (más, menos) a partir de la media.
No es posible ni necesario tener una tabla distinta para cada curva normal posible. En lugar
de ello, podemos utilizar una distribución de probabilidad normal estándar para encontrar
áreas bajo cualquier curva normal. Con esta tabla podemos determinar el área o la
probabilidad de que la variable aleatoria distribuida normalmente esté dentro de ciertas
distancias a partir de la media. Estas distancias están definidas en términos de desviaciones
estándar.
Para cualquier distribución normal de probabilidad, todos los intervalos que contienen el
mismo número de desviaciones estándar a partir de la media contendrán la misma fracción
del área total bajo la curva para cualquier distribución de probabilidad normal.
¿Por qué utilizamos z en lugar del número de desviaciones estándar? Las variables
aleatorias distribuidas normalmente tienen unidades diferentes de medición: dólares,
pulgadas, partes de millón, kilogramos, segundos, etc. Como vamos a utilizar una tabla,
hablamos en términos de unidades estándar (que en realidad significa desviaciones
estándar), y denotamos a éstas con el símbolo z.
Los extremos de la distribución normal se acercan al eje horizontal, pero nunca llegan a
tocarlo.
Esto implica que existe algo de probabilidad (aunque puede ser muy pequeña) de que la
variable aleatoria pueda tomar valores demasiado grandes. No perderemos mucha precisión
al ignorar valores tan alejados de la media. Pero a cambio de la conveniencia del uso de
este modelo teórico, debemos aceptar el hecho de que puede asignar valores empíricos
imposibles.
59
Aunque la distribución normal es continua, resulta interesante hacer notar que algunas
veces puede utilizarse para aproximar a distribuciones discretas.
2.6.3. SUGERENCIA:
Pero, no olvide la regla de que tanto np y nq deben ser de al menos, y sea cauteloso acerca
de la aplicación de la aproximación normal a situaciones en las que la probabilidad de un
evento es muy pequeña. Los valores de la aproximación normal provenientes de los
extremos de la distribución no son muy exactos.
Este modelo se aplica generalmente en el caso de variables que presentan las siguientes
características:
Son variables dimensionales, que surgen como resultado de la medición sobre alguna escala
continua: Kg., cm., $, Tº, etc.
Son variables que pueden pensarse como el resultado de la suma de muchos pequeños
efectos.
Estos elementos son sólo orientativos, y proporcionan un primer indicio para iniciar la
búsqueda del modelo más apropiado.
Distribución exponencial:
Procesos donde se estudian fenómenos como tiempo entre o distancia entre dos eventos
cualesquiera, se pueden modelar mediante la distribución exponencial, que tiene la
siguiente función de densidad:
60
Este teorema explica la vinculación que existe entre diversas distribuciones de probabilidad
y la normal. Especifica las condiciones bajo las cuales puede esperarse que una variable
aleatoria tenga distribución normal.
Se asume que cada término de la suma aporta un efecto del mismo orden de magnitud, y
que es poco probable que un valor individual haga una gran contribución a la suma.
Este teorema explica por qué algunos modelos tienden a la normal, bajo ciertas
condiciones:
Modelo de Poisson: es una extensión de la binomial, y por tanto, se verifica que para l = np
suficientemente grande, se pueden aproximar sus probabilidades con la normal.
61
Como dato de orientación, la aproximación normal a la binomial anda bien cuando tanto np
como n (1 - p) son mayores que 5. Si p es cercano a 0,5, la aproximación anda bien para
cualquier valor de n; en caso contrario, n debe ser suficientemente grande, no menor a 50.
Un adecuado análisis del problema considerado: qué tipo de variable se estudia, qué
fenómeno se desea modelar, etc.
Una vez identificado el modelo apropiado, hay que calcular sus parámetros, en base a las
observaciones que se dispongan de la variable en estudio.
Si planeamos utilizar una probabilidad para describir una situación, debemos escoger con
cuidado la correcta. La distribución binomial se aplica cuando el número de ensayos está
fijo antes de que empiece el experimento, y cada ensayo es independiente y puede tener
sólo dos resultados mutuamente excluyentes. Al igual que la distribución binomial, se
aplica cuando cada ensayo es independiente de los demás. Pero, aunque la probabilidad de
Poisson se aproxima a cero después de los primeros valores, el número de valores posibles
es infinito.
Conceptos:
Aproximaciones a la normal: empleo de la distribución normal para aproximar el cálculo
de probabilidades de otros modelos, que por aplicación del Teorema del Límite Central,
bajo determinadas condiciones, tienden a la normal.
Distribución binomial: modelo para variable aleatoria discreta que permite calcular la
probabilidad de obtener x éxitos en n ensayos repetidos de tipo Bernoulli. Distribución
discreta que describe los resultados de un experimento conocido como proceso de
Bernoulli.
62
Distribución discreta de probabilidad: distribución de probabilidad en la que la variable
tiene permitido tomar solamente un número limitado de valores.
Distribución normal: modelo para la variable aleatoria continua que permite representar un
gran número de fenómenos físicos. Distribución de una variable aleatoria continua que
tiene una curva de un solo pico y con forma de campana. La media cae en el centro de la
distribución y la curva es simétrica respecto a una línea vertical que pase por la media. Los
dos extremos se extienden indefinidamente, sin tocar nunca el eje horizontal.
Distribución de Poisson: modelo para variable aleatoria discreta que permite calcular la
probabilidad de obtener x éxitos en un intervalo continuo. Distribución discreta en la que la
probabilidad de presentación de un evento en un intervalo muy pequeño es un número
también muy pequeño, la probabilidad de que dos o más eventos se presenten dentro del
mismo intervalo es efectivamente igual a cero, y la probabilidad de presentación del evento
dentro del período dado es independiente de cuándo se presenta dicho período.
Distribución de probabilidad: lista de los resultados de un experimento con las
probabilidades que se esperarían ver asociadas con cada resultado.
Proceso de Bernoulli: experimento aleatorio que tiene sólo dos resultados posibles (éxito o
fracaso), cuyas probabilidades permanecen constantes cualquiera que sea el número de
intentos.
Teorema del Límite Central: teorema que especifica las condiciones bajo las cuales puede
esperarse que una variable aleatoria tenga distribución normal.
63
Valor esperado de una variable aleatoria: la suma de los productos de cada valor de la
variable aleatoria por la correspondiente probabilidad de presentación de dicho valor.
Variable aleatoria: variable que toma diferentes valores como resultado de un experimento
aleatorio.
Variable aleatoria continua: variable aleatoria que puede tomar infinitos valores dentro de
un rango cualquiera.
Variable aleatoria discreta: variable que toma un número finito o infinito de valores
numerables.
El primer problema para los estadísticos reside en determinar qué información y en que
cantidad se ha de reunir. En realidad, la dificultad al compilar un censo está en obtener el
número de habitantes de forma completa y exacta; de la misma manera que un físico que
quiere contar el número de colisiones por segundo entre las moléculas de un gas debe
empezar determinando con precisión la naturaleza de los objetos a contar. Los estadísticos
se enfrentan a un complejo problema cuando, por ejemplo, toman una muestra para un
sondeo de opinión o una encuesta electoral. El seleccionar una muestra capaz de representar
con exactitud las preferencias del total de la población no es tarea fácil.
Para establecer una ley física, biológica o social, el estadístico debe comenzar con un
conjunto de datos y modificarlo basándose en la experiencia. Por ejemplo, en los primeros
estudios sobre el crecimiento de la población, los cambios en el número de habitantes se
predecían calculando la diferencia entre el número de nacimientos y el de fallecimientos en
un determinado lapso. Los expertos en estudios de población comprobaron que la tasa de
crecimiento depende sólo del número de nacimientos, sin que el número de defunciones
tenga importancia. Por tanto, el futuro crecimiento de la población se empezó a calcular
basándose en el número anual de nacimientos por cada 1.000 habitantes. Sin embargo,
pronto se dieron cuenta que las predicciones obtenidas utilizando este método no daban
resultados correctos. Los estadísticos comprobaron que hay otros factores que limitan el
crecimiento de la población. Dado que el número de posibles nacimientos depende del
número de mujeres, y no del total de la población, y dado que las mujeres sólo tienen hijos
durante parte de su vida, el dato más importante que se ha de utilizar para predecir la
población es el número de niños nacidos vivos por cada 1.000 mujeres en edad de procrear.
El valor obtenido utilizando este dato mejora al combinarlo con el dato del porcentaje de
mujeres sin descendencia. Por tanto, la diferencia entre nacimientos y fallecimientos sólo es
útil para indicar el crecimiento de población en un determinado periodo de tiempo del
pasado, el número de nacimientos por cada 1.000 habitantes sólo expresa la tasa de
64
crecimiento en el mismo periodo, y sólo el número de nacimientos por cada 1.000 mujeres
en edad de procrear sirve para predecir el número de habitantes en el futuro.
Se llama población al conjunto de todos los elementos cuyo conocimiento interesa. Cada
uno de esos elementos es un individuo. Si se está estudiando el resultado de ciertos
experimentos químicos, cada uno de esos experimentos será un individuo estadístico y el
conjunto de todos los posibles experimentos en esas condiciones será la población.
Cada individuo puede ser descrito mediante uno o varios caracteres. Por ejemplo, si los
individuos son personas, el sexo, el estado civil, el número de hermanos o su estatura son
caracteres. Y si el individuo es una reacción química, el tiempo de reacción, la cantidad de
producto obtenido o si éste es ácido o básico serán posibles caracteres que pueden
analizarse.
Los distintos valores que puede tomar un carácter cuantitativo configuran una variable
estadística. La variable estatura, en cierta población estadística, toma valores en el intervalo
147-205; y la variable número de hermanos toma los valores 0, 1, 2, 3, 4, 5, 6, 7 y 8. Una
variable estadística como esta última es discreta, ya que sólo admite valores aislados. Una
variable estadística es continua si admite todos los valores de un intervalo, como ocurre con
la estatura.
65
• Obtención de parámetros estadísticos, números que sintetizan los aspectos más relevantes
de una distribución estadística.
Se emplean letras latinas minúsculas para denotar estadísticas de muestra y letras griegas o
latinas mayúsculas para representar parámetros de población.
Población Muestra
Definición Colección de elementos Parte o porción de la población
considerados seleccionada para su estudio
Características Parámetros Estadísticas
Símbolos Tamaño de la población: N Tamaño de la muestra: n
Media de la población: m Media de la muestra: x
Desviación estándar: s Desviación estándar: s
Parámetros y estimadores.
Una población queda caracterizada a través de ciertos valores denominados parámetros, que
describen las principales propiedades del conjunto.
Un parámetro es un valor fijo (no aleatorio) que caracteriza a una población en particular.
En general, una parámetro es una cantidad desconocida y rara vez se puede determinar
exactamente su valor, por la dificultad práctica de observar todas las unidades de una
población. Por este motivo, tratamos de estimar el valor de los parámetros desconocidos a
través del empleo de muestras. Las cantidades usadas para describir una muestra se
denominan estimadores o estadísticos muestrales.
Ahora bien, es razonable pensar que si tomamos diferentes muestras de la misma población
y calculamos los diferentes estadísticos de cada una, esos valores van a diferir de muestra a
muestra. Por lo tanto, un estadístico no es un valor fijo, sino que presenta las siguientes
características:
66
Estas son las condiciones que definen a una variable aleatoria. Un estadístico, entonces, es
una variable aleatoria, función de las observaciones muestrales.
A los estadísticos muestrales se los designa con las letras latinas (x, s 2), o letras griegas
"con sombrero" (m ^, s ^2).
Muestreo aleatorio.
Selecciona muestras mediante métodos que permiten que cada posible muestra tenga igual
probabilidad de ser seleccionada y que cada elemento de la población total tenga una
oportunidad igual de ser incluido en la muestra.
Una población infinita es aquella en la que es teóricamente imposible observar todos los
elementos. Aunque muchas poblaciones parecen ser excesivamente grandes, no existe una
población realmente infinita de objetos físicos. Con recursos y tiempo ilimitados,
podríamos enumerar cualquier población finita. Como cuestión práctica, entonces,
utilizamos el término población infinita cuando hablamos acerca de una población que no
podría enumerarse en un intervalo razonable.
La forma más fácil de seleccionar una muestra de manera aleatoria es mediante el uso de
números aleatorios. Estos números pueden generarse ya sea con una computadora
programada para resolver números o mediante una tabla de números aleatorios (tabla de
dígitos aleatorios).
Muestreo sistemático.
El muestreo sistemático difiere del aleatorio simple en que cada elemento tiene igual
probabilidad de ser seleccionado, pero cada muestra no tiene una posibilidad igual de ser
seleccionada (Por ejemplo: tomar cada elemento de 10 en 10: el Nª 1, 11, 21...)
Aún cuando este tipo de muestreo puede ser inapropiado cuando los elementos entran en un
patrón secuencial, este método puede requerir menos tiempo y algunas veces tiene como
resultado un costo menor que el método aleatorio simple.
Muestreo estratificado.
67
Dividimos la población en grupos relativamente homogéneos, llamados estratos. Después,
se utiliza uno de estos planteamientos:
Extraemos un número igual de elementos de cada estrato y damos peso a los resultados de
acuerdo con la porción del estrato con respecto a la población total.
Este método resulta apropiado cuando la población ya está dividida en grupos de diferentes
tamaños y deseamos tomar en cuenta este hecho (por ejemplo: categorías profesionales de
la población).
La ventaja de las muestras estratificadas es que, cuando se diseñan adecuadamente, reflejan
de manera más precisa las características de la población de la cual fueron elegidas.
Muestreo de racimo.
Los principios del muestreo aleatorio simple son la base de la inferencia estadística, el
proceso de hacer inferencias acerca de poblaciones a partir de información contenida en
muestras.
2.7.4. SUGERENCIA:
68
El uso de muestras en un estudio estadístico permite ahorrar mucho esfuerzo y dinero, y
generalmente proporciona información precisa sobre las principales propiedades de la
población.
Para seleccionar una muestra, se deben usar técnicas que permitan garantizar que se
cumplan las propiedades de homogeneidad, independencia y representatividad.
La técnica de muestreo utilizada depende de los objetivos del estudio, de las características
de la población y de las disponibilidades de materiales.
Cada dato cuesta dinero, así que para elegir el tamaño de la muestra hay que compatibilizar
la precisión requerida con la variabilidad de los datos y los recursos disponibles.
Si tomamos varias muestras de una población, las estadísticas que calcularíamos para cada
muestra no necesariamente serían iguales, y lo más probable es que variaran de una muestra
a otra.
Una distribución de probabilidad de todas las medias posibles de las muestras es una
distribución de las medias de las muestras. Los estadísticos la conocen como distribución
de muestreo de la media.
También podríamos tener una distribución de muestreo de una porción. Si trazamos una
distribución de probabilidad de porciones posibles de un evento en todas las muestras,
obtendríamos una distribución de las porciones de las muestras. A esto se lo conoce como
distribución de la porción.
En vez de decir "la desviación estándar de la distribución de las medias de la muestra" para
describir una distribución de medias de la muestra, los estadísticos se refieren al error
estándar de la media. De manera similar, la "desviación estándar de la distribución de las
proporciones de la muestra" se abrevia como error estándar de la proporción. El término
error estándar se utiliza porque da a entender un significado específico. La variabilidad en
las estadísticas de muestras proviene de un error de muestreo debido al azar; es decir, hay
diferencias entre cada muestra y la población, y entre las diversas muestras, debido
únicamente a los elementos que decidimos escoger para las muestras.
La desviación estándar de la distribución de las medias de las muestras mide el grado hasta
el que esperamos que varíen las medias de las diferentes muestras debido a este error
fortuito cometido en el proceso de muestreo. Por tanto, la desviación estándar de la
69
distribución de una estadística de muestra se conoce como el error estándar de la
estadística.
El error estándar indica no sólo el tamaño del error de azar que se ha cometido, sino
también la probable precisión que obtendremos si utilizamos una estadística de muestra
para estimar un parámetro de población. Una distribución de medias de muestra que está
menos extendida (y que tiene un error estándar pequeño) es un mejor estimador de la media
de la población que una distribución de medias de muestra que está ampliamente dispersa y
que tiene un error estándar más grande.
Siempre que usamos pruebas, tenemos que tratar con el error estándar. Específicamente,
necesitamos cierta medición de la precisión del instrumento de prueba, generalmente
representado por el error estándar.
2.7.5. SUGERENCIA:
El error estándar de la media obtenido para situaciones en las que la población es infinita
es:
s x = s /Ö n
70
Para convertir cualquier variable aleatoria normal en una variable aleatoria normal estándar,
debemos sustraer la media de la variable que se está estandarizando y dividir el resultado
entre el error estándar (la desviación estándar de dicha variable). En este caso particular:
2.7.6. SUGERENCIA:
El teorema del límite central nos permite utilizar las propiedades de la distribución normal
en muchos casos en los que los datos subyacentes no están normalmente distribuidos. El
hecho de que la distribución de muestreo sea aproximadamente normal es la base de una
amplia variedad de pruebas estadísticas diferentes.
71
tomados por la media de la muestra tienden a agruparse menos cercanamente alrededor de
m. Al disminuir el error estándar, el valor de cualquier media de muestra probablemente se
acercará al valor de la media de la población. Los estadísticos describen este fenómeno
diciendo: al disminuir el error estándar, se incrementa la precisión con que se puede usar la
media de la muestra para estimar la media de población.
Debido al hecho de que s x varía inversamente con la raíz cuadrada de n, hay una utilidad
decreciente en el muestreo.
Es cierto que al muestrear más elementos disminuye el error estándar, pero este beneficio
puede no valer el costo. El aumento de precisión puede no valer el costo del muestreo
adicional.
Sea X una variable aleatoria con distribución normal, con parámetros m, s 2. Si sacamos
muestras de tamaño n, y calculamos la media aritmética, se demuestra que bajo ciertas
condiciones, X también es una variable aleatoria con distribución normal, con parámetros
m , s 2/n. Es decir:
Si X - N (m, s 2), entonces X - N (m, s 2/n)
Las dos distribuciones tienen la misma media, pero la dispersión de la media aritmética es
menor, tanto más pequeña cuando mayor será el tamaño de la muestra.
Lo más relevante de la media aritmética es que, aún cuando la variable en estudio no tenga
distribución normal, o su distribución sea desconocida, si el número de elementos de la
muestra es suficientemente grande, por aplicación del Teorema del Límite Central, la media
aritmética igualmente va a tener aproximadamente distribución normal.
El cálculo de las probabilidades con la media aritmética tiene entonces validez en términos
teóricos, es decir, representa "lo que se espera" que ocurra con dicha variable antes de
tomar una muestra y calcular efectivamente su valor.
72
Esta ecuación está diseñada para situaciones en las que la población es infinita, o en las que
tomamos muestras de una población infinita con reemplazo.
Este nuevo factor que aparece en la ecuación y se multiplica al error estándar original se
conoce como multiplicador de la población finita.
Cuando muestreamos una pequeña fracción de la población entera (es decir, cuando el
tamaño de la población N es muy grande en relación con el tamaño de la muestra n), el
multiplicador de la población finita toma un valor cercano a 1. Los estadísticos se refieren a
la fracción n/N como la fracción de muestreo, porque es la fracción de la población N
contenida en la muestra.
2.7.7. SUGERENCIA:
Cuando desee calcular probabilidades con la media aritmética, no olvide que al calcular la
variable estandarizada, debe dividir por el desvío o error estándar de la media. Los
resultados serán inexactos si omite este punto.
73
La aplicación del Teorema del Límite Central hace de la media aritmética una herramienta
útil, aún en aquellos casos en que la distribución de la variable en estudio no es conocida, o
no es normal.
Conceptos.
Error de muestreo: error o variación entre estadísticas de muestra debido al azar, es decir,
diferencias entre cada muestra y la población, y entre varias muestras, que se deben
únicamente a los elementos que elegimos para la muestra.
Estratos: grupos dentro de una población formados de tal manera que cada grupo es
relativamente homogéneo, aunque existe una variabilidad más amplia entre los diferentes
grupos.
Inferencia estadística: proceso de análisis que consiste en inferir las propiedades de una
población en base a la caracterización de la muestra.
74
Muestreo no aleatorio: conformación de la muestra en base al conocimiento o experiencia
del observador.
Muestreo aleatorio simple: métodos de selección de muestras que permiten a cada muestra
posible una probabilidad igual de ser elegida y a cada elemento de la población completa
una oportunidad igual de ser incluido en la muestra.
Muestreo de juicio: método para seleccionar una muestra de una población en el que se usa
el conocimiento o la experiencia personal para identificar aquellos elementos de la
población que deben incluirse en la muestra.
Muestreo sistemático: los elementos de la muestra son elegidos a intervalos fijos. Método
de muestreo aleatorio usado en estadística en el que los elementos que se muestrearán se
seleccionan de la población en un intervalo uniforme que se mide con respecto al tiempo, al
orden o al espacio.
Multiplicador de la población finita: factor que se utiliza para corregir el error estándar de
la media en el estudio de una población de tamaño finito, pequeño con respecto al tamaño
de la muestra.
75
Parámetro: valor fijo que caracteriza a una población. Valores que describen las
características de una población.
Precisión: el grado de exactitud con el que la media de la muestra puede estimar la media
de la población, según revela el error estándar de la media.
Racimos: grupos dentro de una población que son esencialmente similares entre sí, aunque
los grupos mismos tengan amplia variación interna.
Teorema del límite central: resultado que asegura que la distribución de muestreo de la
media se acerca a la normalidad cuando el tamaño de la muestra se incrementa, sin importar
la forma de la distribución de la población de la que se selecciona la muestra.
2.8. ESTIMACIÓN.
Tipos de estimación.
Una estimación puntual: es sólo un número que se utiliza para estimar un parámetro de
población desconocido. Una estimación puntual a menudo resulta insuficiente, debido a que
sólo tiene dos opciones: es correcta o está equivocada. Una estimación puntual es mucho
más útil si viene acompañada por una estimación del error que podría estar implicado.
Estimador y estimaciones.
76
Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos
a ese valor como una estimación. Una estimación es un valor específico observado de una
estadística. Hacemos una estimación si tomamos una muestra y calculamos el valor que
toma nuestro estimador en esa muestra.
77
Estimaciones puntuales.
La porción de unidades de una población dada que posee una característica particular se
representa mediante el símbolo p. Si conocemos la porción de unidades de una muestra que
tiene la misma característica, podemos utilizar esa p como estimador de p. Se puede
mostrar que p tiene posee todas las características deseables: es imparcial (no sesgado),
coherente, eficiente y suficiente.
2.8.1. SUGERENCIA:
Estimaciones de intervalo.
El propósito de tomar muestras es para conocer más acerca de una población. Podemos
calcular esa información a partir de las muestras como estimaciones puntuales, o como
estimaciones de intervalo. Una estimación de intervalo describe un intervalo de valores
dentro del cual es posible que esté un parámetro de población.
78
En lo que concierne a cualquier intervalo particular, éste contiene a la media de la
población o no la contiene, pues la media de la población es un parámetro fijo, y no varía.
La probabilidad que asociamos con una estimación de intervalo se conoce como nivel de
confianza. Esta probabilidad indica qué tanta confianza tenemos de que la estimación del
intervalo incluya al parámetro de población. Una probabilidad más alta indica más
confianza.
Podría pensarse que deberíamos utilizar un nivel alto de confianza en todos los problemas
sobre estimaciones. En la práctica, sin embargo, altos niveles de confianza producen
intervalos de confianza grandes, y éstos no son precisos, dan estimaciones bastante
imprecisas.
A menudo resulta difícil o caro tomar más de una muestra de una población. Basados en
solamente una muestra estimamos el parámetro de población.
El intervalo de confianza quiere decir que si seleccionamos muchas muestras aleatorias del
mismo tamaño y si calculamos un intervalo de confianza para cada una de las muestras,
tendremos un porcentaje de confianza que determinó de que en todos los casos la media de
la población caerá dentro del intervalo.
Por otro lado, existe un cierto equilibrio entre la certidumbre de la estimación y el ancho de
un intervalo de confianza.
79
Posteriormente, se establecen los límites de confianza superior e inferior, considerando el
porcentaje de confianza requerido.
2.8.2. SUGERENCIA:
Cuando tenemos muestras grandes, utilizamos el Teorema del Límite Central, nuestro
conocimiento de la curva normal y nuestra habilidad para hacer correcciones para
poblaciones finitas.
Siempre que tomamos una muestra, perdemos algo de información útil con respecto a la
población. El error de muestreo se puede controlar si seleccionamos una muestra cuyo
tamaño sea el adecuado. En general, cuanta más precisión se quiera, más grande será el
tamaño de la muestra necesaria.
Para calcular el tamaño de muestra, podemos utilizar la fórmula del error estándar de la
media:
s x = s /Ö n
Sabemos que más menos tres desviaciones estándar incluyen 99,7% del área total bajo la
curva normal, esto es, más tres desviaciones estándar y menos tres desviaciones estándar de
la media incluyen casi toda el área de la distribución.
2.8.3. SUGERENCIA:
80
Una estimación, en cambio, es un valor particular del estimador, calculado en base a una
muestra dada. Por lo tanto, constituye un valor fijo (no aleatorio) que caracteriza a esa
muestra en particular, pero que se usa para inferir el valor de un parámetro desconocido.
Entre un estimador puntual y uno por intervalos, es preferible usar este último porque tiene
asociado una probabilidad que contempla el error que se puede cometer en la aproximación.
Conceptos.
Estimación puntual: un solo número que se utiliza para estimar un parámetro de población
desconocido.
Estimador coherente: estimador que produce valores que se acercan más al parámetro de la
población conforme aumenta el tamaño de la muestra.
Estimador eficiente: estimador con un menor error estándar que algún otro estimador del
parámetro de la población, esto es, cuanto más pequeño sea el error estándar de un
estimador, más eficiente será ese estimador.
Estimador suficiente: estimador que utiliza toda la información disponible en los datos
correspondientes a un parámetro.
Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que
incluya el valor real del parámetro de la población.
Nivel de confianza: probabilidad que los estadísticos asocian con una estimación de
intervalo de un parámetro de población, ésta indica qué tan seguros están de que la
estimación del intervalo incluirá el parámetro de la población. Probabilidad, designada de
antemano, de que un intervalo de confianza incluya al valor del parámetro desconocido.
81
Propiedades de un buen estimador: características deseables de un estimador, para lograr la
mejor aproximación posible de un parámetro poblacional.
El índice de cantidad, mide qué tanto cambia el número o la cantidad de una variable en el
tiempo.
El índice de valor, mide los cambios en el valor monetario total. Esto es, mide los cambios
en el valor en pesos de una variable. Combina los cambios en precio y cantidad para
presentar un índice con más información.
Por lo general, un índice mide el cambio en una variable durante un cierto período, como en
una serie temporal. Sin embargo, también se le puede utilizar para medir diferencias en una
variable dada en diferentes lugares. Esto se lleva a cabo recolectando datos de manera
simultánea en los diferentes lugares y luego comprándolos.
Un solo número índice puede reflejar a una variable compuesta o a un grupo de éstas. El
IPC mide el nivel general de precios para bienes y servicios específicos en la economía.
Combina los precios individuales de bienes y servicios para conformar un número de índice
de precios compuestos.
Los números de índice pueden utilizarse de diferentes maneras. Es más común usarlos por
sí mismos, como un resultado final.
82
Existen varias cosas que pueden distorsionar los números índice:
En ocasiones, hay dificultad para hallar datos adecuados para calcular un índice.
La distorsión de los números índice también se puede presentar cuando se selecciona una
base no apropiada. Siempre debemos considerar cómo y por qué el período base fue
seleccionado antes de aceptar una aseveración basada en el resultado de comparar números
índice.
No pesados quiere decir que todos los valores considerados son de igual importancia.
Agregado significa que agregamos o sumamos todos los valores. La principal ventaja es su
simplicidad.
Se calcula mediante la suma de todos los elementos del compuesto, para el período dado, y
luego dividiendo este resultado entre la suma de los mismos elementos durante el período
base.
(å Q1/å Q0) x 100
Un índice no pesado puede verse distorsionado por un cambio en unos cuantos productos,
lo cual puede no ser representativo de la situación que se está estudiando.
A menudo tenemos que asignar una importancia mayor a los cambios que se dan en algunas
variables que a los que se presentan en otras cuando calculamos un índice. Esta
83
ponderación nos permite incluir más información, aparte del mero cambio de los precios en
el tiempo. Nos permite mejorar la precisión de la estimación. El problema está en decidir
cuánto peso asignar a cada una de las variables en la muestra
Método Laspeyres: utiliza las cantidades consumidas durante el período base, es el más
usado, debido a que requiere medidas de cantidades de únicamente un período. Como cada
número índice depende de los mismos precios y cantidad base, la administración puede
comparar el índice de un período directamente con el índice de otro. Una ventaja de este
método es la comparabilidad de un índice con otro. El uso de la misma cantidad de período
base nos permite hacer comparaciones de manera directa. Otra ventaja es que muchas
medidas de cantidad de uso común no son tabuladas cada año. La principal desventaja es
que no toma en cuenta los cambios de los patrones de consumo.
Como las medidas de cantidad utilizadas por un período de índice, por lo general son
diferentes de las medidas de cantidad de otro período de índice, resulta imposible atribuir la
diferencia entre los dos índices solamente a cambios de precio. En consecuencia, es difícil
comparar índices de diferentes períodos con el método Paasche.
Método de agregados de peso fijo: en lugar de utilizar pesos de período base o de período
actual, utiliza pesos tomados de un período representativo. Los pesos representativos se
conocen como pesos fijos. Estos últimos y los precios base no tienen que provenir del
mismo período. La principal ventaja es la flexibilidad al seleccionar el precio base y el peso
fijo (cantidad).
Como una alternativa del método de agregados, podemos utilizar el método de promedio de
relativos.
84
Cuando tenemos más de un producto (o actividad), primero encontramos el cociente del
precio actual entre el precio base para cada producto y multiplicamos cada cociente
obtenido por 100. Luego sumamos los porcentajes relativos resultantes y dividimos el
resultado entre el número de productos.
å [(Q1/ Q0) x 100] / n
Con los métodos de promedio pesado de relativos existen varias formas de determinar un
valor pesado. Como en el método de Laspeyres, podemos utilizar el valor base que
encontramos multiplicando la cantidad base por el precio base. El uso del valor base
producirá exactamente el mismo resultado que si estuviéramos calculando el índice con el
método de Laspeyres. Usamos el método Laspeyres cuando los datos de cantidad se
obtienen con mayor facilidad.
å {[(Q1/ Q0) x 100] PnQn} / å PnQn
Así que por lo general utilizamos valores base o valores fijos cuando calculamos un índice
de promedio pesado de relativos.
Índices de cantidad.
85
Cualquiera de los métodos analizados para determinar índices de precios, puede utilizarse
para calcular índices de cantidad. Cuando deseamos calcular índices de precios, usamos
cantidades o valores como pesos. Ahora que queremos calcular índices de cantidad,
utilizamos precios o valores como pesos.
Índices de valor.
Un índice de valor mide cambios generales en el valor total de alguna variable. Como el
valor está determinado tanto por el precio como por la calidad, un índice de valor realmente
mide los efectos combinados de los cambios de precios y cantidad. La principal desventaja
de un índice de valor es que no hace diferencia alguna entre los efectos de estados dos
componentes.
Problemas en la construcción.
Selección de un elemento para ser incluido en un compuesto: casi todos los índices se
construyen para responder a una cierta pregunta en particular. Los elementos incluidos en el
compuesto dependen de la pregunta en cuestión.
Selección de un período base: el período base seleccionado debe ser un período normal,
preferentemente un período bastante reciente. Normal significa que el período no debe estar
en un pico o en una depresión de una fluctuación. Una técnica para evitar la elección de un
período irregular consiste en promediar los valores de varios períodos consecutivos.
Efecto del paso del tiempo en un índice: los factores relacionados con un índice tienden a
cambiar con el tiempo, en particular, los pesos apropiados. A menos que se cambien los
pesos de acuerdo a las circunstancias, el índice se vuelve cada vez menos confiable.
Cambios de calidad: los números índice no reflejan los cambios en la calidad de los
productos que miden. Si la calidad ha cambiado realmente, entonces el índice sobrestima o
subestima los cambios en los niveles de precios.
86
Conceptos:
Índice de agregados no pesados: utiliza todos los valores considerados y asigna igual
importancia a cada uno de estos valores.
Índice de agregados pesados: utilizando todos los valores considerados, este índice asigna
pesos a estos valores.
Índice simple: número que relaciona un solo valor de la variable con una cantidad base.
Método de agregados de pesos fijos: para pesar un índice de agregados, este método utiliza
como pesos cantidades consumidas durante algún período representativo.
Método de Laspeyres: para pesar un índice de agregados, este método utiliza como pesos
las cantidades consumidas durante el período base.
Método de promedio no pesado de relativos: para construir un número índice, este método
encuentra el cociente del precio actual entre el precio base para cada producto, suma los
porcentajes relativos resultantes y posteriormente divide el resultado entre el número de
productos.
Método de promedio pesado de relativos: para construir un número índice, este método
pondera la importancia del valor de cada elemento del compuesto.
Número índice: cociente que mide cuánto cambia una variable con el tiempo, o en distintos
lugares.
Porcentaje relativo: cociente de un valor actual entre un valor base cuyo resultado es
multiplicado por 100.
87
BIBLIOGRAFÍA:
Pick, Susan y López, Ana Luisa. CÓMO INVESTIGAR EN CIENCIAS SOCIALES. 5ª ed.
México (1994). Ed. Trillas S.A.
88
Tenorio Bahena, Jorge. INVESTIGACIÓN DOCUMENTAL. 3ª ed. México (1988). Ed.
Mac Graw - Hill.
89