La validez del contenido es el grado en que un instrumento de prueba o evaluación evalúa todos los aspectos del tema, construcción o comportamiento que está diseñado para medir. ¿Los artículos cubren completamente el tema? La alta validez de contenido indica que la prueba cubre completamente el tema para el público objetivo. Los resultados más bajos sugieren que la prueba no contiene facetas relevantes del tema.
Los investigadores con frecuencia evalúan la validez del contenido al crear una prueba o encuesta que evalúe el conocimiento de un área temática. ¿La prueba cubre la gama completa de temas? En psicología, los investigadores a menudo consideran la validez del contenido al desarrollar una escala psicológica, como una escala de depresión. ¿El instrumento cubre la gama completa de dimensiones relacionadas con la construcción psicológica o solo una porción?
Por ejemplo, imagine que diseñé una prueba que evalúa qué tan bien los estudiantes entienden las estadísticas en un nivel apropiado para un curso universitario introductorio. La validez del contenido evalúa mi prueba para ver si cubre material adecuado para esa área temática en ese nivel de experiencia. En otras palabras, ¿mi prueba cubre todas las facetas pertinentes del área de contenido? ¿Faltan conceptos?
- Pruebas que evalúen el conocimiento de los dominios del área temática, como la biología, la física y la literatura.
- Una escala para evaluar el manejo de la ira.
- Un cuestionario que evalúa las habilidades de afrontamiento.
- Una escala para evaluar el consumo problemático.
La medición de la validez del contenido implica evaluar preguntas individuales en una prueba y hacer a los expertos si cada uno apunta a las características que el instrumento está diseñado para cubrir. Este proceso compara la prueba con sus objetivos y las propiedades teóricas de la construcción. Los investigadores determinan sistemáticamente si cada elemento contribuye y que no se pasa por alto ningún aspecto.
¿Qué es la validez de contenido ejemplo?
Más formalmente, que «algo» que estás tratando de medir se llama construcción. Una construcción puede ser (casi) cualquier cosa. Las construcciones simples incluyen altura, peso e coeficiente intelectual. Las construcciones más complicadas incluyen: capacidad de desempeñarse bien en un trabajo determinado; Competencia con áreas temáticas amplias como la física o la historia de los Estados Unidos, y la capacidad de evaluar la condición psiquiátrica de otras personas.
- El examen de la barra no es una buena medida de la capacidad de practicar la ley (ver aquí).
- Las pruebas de IQ no son una buena forma de medir la inteligencia (ver aquí y aquí).
La validez de contenido también es similar a la validez facial. Sin embargo, ambos utilizan diferentes enfoques para verificar la validez. La validez aparente es una forma informal de verificar la validez; Cualquiera podría tomar una prueba en su «valor nominal» y decir que se ve bien. La validez del contenido utiliza un enfoque más formal basado en estadísticas, generalmente con expertos en el campo. Estos expertos juzgan las preguntas sobre qué tan bien cubren el material.
La validez de contenido y la consistencia interna son similares, pero no son lo mismo. La validez del contenido es qué tan bien un instrumento (es decir, una prueba o cuestionario) mide una construcción teórica. La consistencia interna mide qué tan bien algunos elementos o preguntas de prueba miden características o variables particulares en el modelo. Por ejemplo, es posible que tenga una encuesta de satisfacción del cliente de diez preguntas con tres preguntas que prueben «la satisfacción general con el servicio telefónico». Probar esas tres preguntas para satisfacción con el servicio telefónico es un ejemplo de verificación de consistencia interna; Tomar toda la encuesta y asegurarse de que mida la «satisfacción del cliente» sería un ejemplo de validez de contenido.
¿Qué es la validez de constructo y contenido?
La validez de contenido y construcción son dos aspectos del argumento de validez que respaldan el programa GRE®.
- La validez de construcción significa que la prueba mide las habilidades/habilidades que deben medirse.
- La validez del contenido significa que la prueba mide el contenido apropiado.
ETS reúne información de programas escolares de posgrado y profesionales, incluidas las escuelas de negocios y de derecho, sobre las habilidades que consideran esenciales para el éxito en sus programas.
La sección de razonamiento verbal de las habilidades de prueba general de GRE® mide que los profesores han identificado a través de encuestas como importantes para el éxito a nivel de posgrado. Las capacidades que se evalúan incluyen:
- La validez de construcción significa que la prueba mide las habilidades/habilidades que deben medirse.
- La validez del contenido significa que la prueba mide el contenido apropiado.
La sección de razonamiento cuantitativo de las habilidades de prueba general de GRE mide que son consistentes con las descritas en el razonamiento cuantitativo de la Asociación Matemática de Estados Unidos para los graduados universitarios: un complemento a los estándares se basa en los comentarios de las encuestas de facultad. Las habilidades que se evalúan en la medida cuantitativa de GRE incluyen:
- La validez de construcción significa que la prueba mide las habilidades/habilidades que deben medirse.
- La validez del contenido significa que la prueba mide el contenido apropiado.
¿Cómo se determina la validez de contenido?
La validez de contenido del instrumento se puede determinar utilizando los puntos de vista del panel
de expertos. Este panel consta de expertos en contenido y expertos laicos. Los expertos laicos son los
Los sujetos de investigación potenciales y los expertos en contenido son profesionales que tienen investigación
experiencia o trabajo en el campo.34using
Los sujetos del grupo objetivo como experto aseguran que la población para quien el instrumento
se está desarrollando está representado1
En el método de validez de contenido cualitativo, los expertos en contenido y el grupo objetivo
Se adoptan recomendaciones para observar la gramática, utilizando palabras apropiadas y correctas,
Aplicar el orden correcto y adecuado de las palabras en los elementos y la puntuación apropiada.35 Sin embargo, en el contenido cuantitativo
Método de validez, la confianza se mantiene al seleccionar lo más importante y correcto
Contenido en un instrumento, que se cuantifica por la relación de validez de contenido (CVR). En esto
Manera, se solicita a los expertos que especifiquen si un elemento es necesario para operar un
construir en un conjunto de elementos o no. Para este fin, se les solicita que obtengan cada elemento
de 1 a 3 con un rango de tres grados de «no es necesario, útil pero no
Esencial, esencial «respectivamente. La relación de validez de contenido varía entre 1 y
-1. La puntuación más alta indica un acuerdo adicional de los miembros del panel sobre la necesidad de
un artículo en un instrumento. La fórmula de la relación de validez de contenido es CVR = (NE –
N/2)/(n/2), en el que el NE es el número de panelistas que indican «esencial»
y N es el número total de panelistas. El valor numérico de la relación de validez de contenido es
Determinado por LawShe Table. Por ejemplo, en nuestro estudio es el número de panelistas 15
miembros, si CVR es mayor que 0.49, el elemento en el instrumento con un nivel aceptable
de importancia será aceptado.36
En los informes de desarrollo de instrumentos, el enfoque más ampliamente informado para el contenido
La validez es el índice de validez de contenido.
su relevancia para el estudio subyacente de construcción según las definiciones teóricas de la
construir en sí mismo y sus dimensiones en una escala ordinal de 4 puntos (1 [no relevante],
2 [algo relevante], 3 [bastante relevante], 4 [muy relevante]). 34 Se agregó una tabla como la que se muestra a continuación (Tabla 1) a la carta de presentación para guiar a los expertos para obtener la puntuación
método.
Para obtener el índice de validez de contenido para relevancia y claridad de cada elemento (I-CVIS), el
El número de aquellos que juzgaron el artículo como relevante o claro (calificación 3 o 4) se dividió por el
número de expertos en contenido, pero por relevancia, el índice de validez de contenido se puede calcular tanto
para el nivel de elemento (I-CVIS) y el nivel de escala (S-CVI). En el nivel de elemento, I-CVI se calcula como
el número de expertos que dan una calificación 3 o 4 a la relevancia de cada elemento, dividido por el
Número total de expertos.
¿Qué es validez de contenido y cómo se realiza?
En psicometría, la validez de contenido (también conocida como validez lógica) se refiere a la medida en que una medida representa todas las facetas de una construcción dada. Por ejemplo, una escala de depresión puede carecer de validez de contenido si solo evalúa la dimensión afectiva de la depresión pero no tiene en cuenta la dimensión conductual. Existe un elemento de subjetividad en relación con la determinación de la validez del contenido, que requiere un grado de acuerdo sobre lo que representa un rasgo de personalidad particular, como la extraversión. Un desacuerdo sobre un rasgo de personalidad evitará la ganancia de una alta validez de contenido. [1]
La validez del contenido es diferente de la validez aparente, que no se refiere a lo que la prueba realmente mide, sino a lo que parece medir superficialmente. La validez facial evalúa si la prueba «parece válida» a los examinados que la toman, el personal administrativo que decide sobre su uso y otros observadores técnicamente no entrenados. La validez del contenido requiere el uso de expertos en temas reconocidos para evaluar si los elementos de prueba evalúan el contenido definido y las pruebas estadísticas más rigurosas que la evaluación de la validez aparente. La validez del contenido se aborda con mayor frecuencia en pruebas académicas y vocacionales, donde los elementos de prueba deben reflejar el conocimiento realmente requerido para un área temática determinada (por ejemplo, historia) o habilidad laboral (por ejemplo, contabilidad). En entornos clínicos, la validez del contenido se refiere a la correspondencia entre los elementos de prueba y el contenido de síntomas de un síndrome. En la investigación educativa, la validez del contenido se refiere al consenso de qué contenido del curso (por ejemplo, objetivos de aprendizaje) es esencial para el plan de estudios (por ejemplo, anatomía en la educación fisioterapeuta [2]).
C. H. Lawshe desarrolló un método ampliamente utilizado para medir la validez de contenido. Es esencialmente un método para medir el acuerdo entre los evaluadores o jueces sobre cuán esencial es un elemento en particular. En un artículo sobre
Pruebas previas al empleo, LawShe (1975) [3] propuso que cada uno de los evaluadores expertos de la materia (PYME) en el panel de jueces responda a la siguiente pregunta para cada elemento: «¿Es la habilidad o conocimiento medido por este ítem ‘esencial, esencial, «¿Útil, pero no esencial» o «no es necesario» para el desempeño del trabajo? » Según LawShe, si más de la mitad de los panelistas indican que un elemento es esencial, ese elemento tiene al menos algo de validez de contenido. Existen mayores niveles de validez de contenido, ya que un mayor número de panelistas están de acuerdo en que un elemento en particular es esencial. Utilizando estos supuestos, LawSHE desarrolló una fórmula denominada relación de validez de contenido:
Cvr = (ne-n/2)/(n/2) { displaystyle cvr = (n_ {e} -n/2)/(n/2)}
donde cvr = { displayStyle cvr =} Ratio de validez de contenido, ne = { displayStyle n_ {e} =} número de panelistas de PYME que indican «esenciales», n = { displayStyle n =} número total de panelistas de SME. Esta fórmula produce valores que varían de +1 a -1; Los valores positivos indican que al menos la mitad de las PYME calificaron el elemento como esencial. La CVR media entre los elementos puede usarse como un indicador de la validez general del contenido de la prueba.
LawShe (1975) proporcionó una tabla de valores críticos para el CVR por el cual un evaluador de prueba podría determinar, para un conjunto de PYME de un tamaño dado, el tamaño de una CVR calculada necesaria para exceder la expectativa de probabilidad. Esta tabla había sido calculada para LawShe por su amigo, Lowell Schipper. El examen minucioso de esta tabla publicada reveló una anomalía. En la tabla de Schipper, el valor crítico para el CVR aumenta monotónicamente desde el caso de 40 PYME (valor mínimo = .29) al caso de 9 PYME (valor mínimo = .78) solo para caer inesperadamente en el caso de 8 PYME (mínimo (mínimo valor = .75) Antes de alcanzar su valor de techo en el caso de 7 PYME (valor mínimo = .99). Sin embargo, al aplicar la fórmula a 8 evaluadores, el resultado de 7 esencial y otra calificación produce una CVR de .75. Si .75 no fuera el valor crítico, entonces se necesitarían 8 de 8 evaluadores de esenciales que producirían una CVR de 1.00. En ese caso, para ser consistente con el orden ascendente de CVRS, el valor para 8 evaluadores tendría que ser 1.00. Eso violaría el mismo principio porque tendría el valor «perfecto» requerido para 8 evaluadores, pero no para las calificaciones en otros números de evaluadores a más de 8 evaluadores. No está claro si esta desviación de la progresión monotónica de la tabla se debió a un error de cálculo en la parte de Schipper o un error en la escritura o componente compatible. Wilson, Pan y Schumsky (2012), que buscan corregir el error, no encontraron explicación en los escritos de LawShe ni ninguna publicación de Schipper que describiera cómo se calculó la tabla de valores críticos. Wilson y sus colegas determinaron que los valores de la Schipper eran aproximaciones cercanas a la aproximación normal a la distribución binomial. Al comparar los valores de Schipper con los valores binomiales recientemente calculados, también encontraron que LawShe y Schipper habían etiquetado erróneamente su tabla publicada como representando una prueba de una cola cuando, de hecho, los valores reflejaban los valores binomiales para una prueba de dos colas. Wilson y sus colegas publicaron un recalculación de valores críticos para la relación de validez de contenido que proporciona valores críticos en pasos unitarios a niveles alfa múltiples. [4]
- Handbook of Management Scales, un wikibook que contiene escalas multi ítems utilizadas anteriormente para medir construcciones en la literatura de investigación de gestión empírica. Para muchas escalas, se discute la validez del contenido.
¿Cómo se determina la validez de un estudio?
El país en promedio produce 500 estudios de investigación de prótesis anualmente. Los estudios menores entre estos se traducen en una investigación progresiva. Estos hallazgos no pueden traducirse a una etapa avanzada debido a las principales limitaciones en el diseño del estudio, la metodología, la motivación, el interés y la financiación. El diseño del estudio, la instrumentación utilizada y la recopilación de datos hacen que las inferencias obtenidas de estos estudios sean menos válidas. La validez del diseño del estudio es esencial tanto en términos de aceptación interna para la estandarización como en términos de reconocimiento externo para la aceptación universal. [1]
El nombre válido se deriva de la palabra latina validus que indica fuerte. Esto implica que el diseño y la metodología seguidos deben ser fuertes y aceptados a nivel mundial. La validez en el diseño del estudio denota que la precisión, la confiabilidad de los instrumentos utilizados y los datos o hallazgos recopilados están altamente ordenados y obtenidos con un error sistémico reducido. Cuando la validez está dentro de los límites aceptables, ayuda a una aceptación más amplia y conduce a una investigación progresiva.
La validez es de dos tipos: validez interna y validez externa. La validez interna son los pasos dados o los estándares seguidos por los investigadores en el entorno del estudio para obtener los resultados veraces. La validez externa es la generalización seguida para una aceptación más amplia de la población global. [2] Aunque estos procedimientos de validación son esenciales para los estudios clínicos, es necesaria una mayor atención para los estudios in vitro para la investigación progresiva.
Numerosos factores afectan la validez del estudio. La validez interna se ve afectada por el tamaño del sujeto/muestra, tipo o variabilidad del sujeto, desgaste de las muestras, maduración, tiempo tomado para evaluación, historia e instrumentos o sensibilidad a la evaluación. [3] La validez externa está controlada por la representación de la población, el tiempo/duración de la evaluación, el entorno de investigación, las características del investigador, la recopilación de datos, la interacción del sujeto a la investigación y el control de variables independientes. [4] Es esencial que estos factores se entiendan en el diseño del estudio y controlen el diseño y la aceptación del estudio sólido.
La validez del estudio puede evaluarse mediante traducción o criterios. También se puede medir por contenido, cara, predecible, creativo, concurrente, convergente y divergente, o diferentes medidas de validez. [4] La validez en el estudio se puede mejorar definiendo el objetivo y el objetivo del estudio, sincronizando las medidas de evaluación con los objetivos. Además, es aconsejable compararse con el entorno externo o la medida externa para una aceptación más amplia. [5]
¿Qué es validez de contenido según autores?
Se han descrito varios enfoques para evaluar la validez del contenido en la literatura. Uno de los primeros procedimientos fue probablemente el método Delphi, que fue utilizado desde 1940 por la Administración Nacional de Aeronáutica y Espacio (NASA) como un método sistemático para predicciones técnicas (ver Sackman, 1974; Hasson y Keeney, 2011). El método Delphi, que se usa predominantemente en la investigación médica, es una técnica de comunicación iterativa estructural donde los expertos evalúan la importancia de las características, síntomas o elementos para una construcción objetivo (por ejemplo, Jobst et al., 2013; Kikukawa et al., 2014 ). En la primera ronda, cada experto califica individualmente la importancia de los síntomas/elementos para la enfermedad/construcción de interés. En la segunda ronda, los expertos reciben resultados resumidos basados en la primera ronda y pueden hacer más comentarios o revisar sus respuestas de la primera ronda. El proceso se detiene cuando se logra un criterio de homogeneidad previamente definido.
La mayoría de los procedimientos utilizados actualmente para investigar la validez del contenido se basan en los métodos cuantitativos descritos por LawShe (1975) o Lynn (1986), quienes también proporcionaron índices de validez de contenido numérico (ver Sireci, 1998). Todos estos métodos, así como el método Delphi, se basan en juicios de expertos en los que varios expertos califican la relevancia de los elementos para la construcción en escalas de 4 a 10 puntos o porcentajes (Haynes et al., 1995) o asigne los elementos a las dimensiones de la construcción (ver Moore y Benbasat, 2014). Luego, se calculan los indicadores de relevancia promedio. Esto se puede hacer calculando porcentajes promedio simples (por ejemplo, si el número de expertos es bajo) o utilizando un valor de corte (generalmente 70-80%) para decidir si un artículo mide la construcción respectiva (por ejemplo, Sireci, 1998 ; Newman et al., 2013). En otros casos, como se mencionó anteriormente, un índice de validez de contenido (LawShe, 1975; Lynn, 1986; Polit y Beck, 2006; Polit et al., 2007; Zamanzadeh et al., 2014) se estima para elementos individuales (por ejemplo, el Proporción de acuerdo entre los expertos sobre la asignación de escala) o para toda la escala (por ejemplo, la proporción de elementos que son juzgados como contenido por todos los expertos).
Sin embargo, no existe ningún procedimiento sistemático que pueda usarse como guía general para la evaluación de la validez del contenido (cf. Newman et al., 2013). Además, Johnston et al. (2014) recientemente pidieron un método satisfactorio, transparente y sistemático para evaluar la validez del contenido. Describieron un enfoque cuantitativo de «validez de contenido discriminante» (DCV) que evalúa no solo la relevancia de los ítems para el constructo, sino también si las construcciones discriminantes juegan un papel importante para el comportamiento de respuesta. En este método, los expertos evalúan cuán relevante es cada elemento para la construcción. Después de eso, se determina estadísticamente si cada ítem mide la construcción de interés. Este procedimiento es adecuado para determinar la validez del contenido, pero los autores argumentaron que no es posible determinar la representatividad de los ítems para la construcción objetivo, como lo afirman Haynes et al. (1995). Además, implica solo análisis puramente cuantitativos y no utiliza el potencial de los enfoques cualitativos. Por ejemplo, Newman et al. (2013) ilustraron las ventajas de los procedimientos de métodos mixtos para evaluar la validez del contenido o incluso la validez en general. Mencionan específicamente dos ventajas: la posibilidad de mejorar la validez y la confiabilidad del instrumento, y las nuevas ideas resultantes sobre la naturaleza de la construcción objetivo. Introdujeron la Tabla de Especificación (TOS), que requiere que los expertos, entre otras cosas, asignen elementos a construcciones utilizando porcentajes. Además, los expertos pueden estimar la representatividad general de todo el conjunto de elementos para la construcción de destino y agregar comentarios sobre este tema. El TOS es amplio aplicable y es una buena posibilidad de evaluar la validez del contenido, pero no permite la evaluación de superposiciones entre diferentes construcciones y no conecta los resultados con el análisis psicométrico posterior de ítems. Dicha conexión no solo mejora la medición de la validez del contenido, sino que también permite el análisis de ítems basado en la teoría. Es decir, los juicios expertos sobre el contenido de elementos pueden usarse para derivar hipótesis específicas sobre el ajuste del elemento, que luego se pueden probar estadísticamente.
¿Qué son los tipos de validez?
Hay una gran cantidad de confusión en la literatura metodológica que proviene de la amplia variedad de etiquetas que se utilizan para describir la validez de las medidas. Quiero hacer dos casos aquí. Primero, es tonto limitar nuestro alcance solo a la validez de las medidas. Realmente queremos hablar sobre la validez de cualquier operacionalización. Es decir, cada vez que traduce un concepto o construye a una realidad funcional y operativa (la operacionalización), debe preocuparse por qué tan bien hizo la traducción. Este problema es tan relevante cuando hablamos de tratamientos o programas como es cuando hablamos de medidas. (De hecho, que lo piense, también podríamos pensar en el muestreo de esta manera. La población de interés en su estudio es la «construcción» y la muestra es su operacionalización. Si pensamos en ello de esta manera, esencialmente somos ¡Hablando sobre la validez de constructo del muestreo!). En segundo lugar, quiero utilizar el término validez de construcción para referirse al caso general de traducir cualquier construcción a una operacionalización. Usemos todos los demás términos de validez para reflejar diferentes formas en que puede demostrar diferentes aspectos de la validez de construcción.
Con todo eso en mente, aquí están los principales tipos de validez:
- Validez aparente
- Validez de contenido
- Validez predictiva
- Validez concurrente
- Validez convergente
- Validez discriminante
Estos a menudo se mencionan en textos y trabajos de investigación cuando se habla de la calidad de la medición.
¿Qué son validez?
- La fiabilidad se refiere a la precisión o precisión de un proceso de medición, o en otra palabra, consistencia sobre las réplicas del procedimiento de prueba (Crocker y Algina, 1986)
- Los errores sistemáticos son los errores que afectan constantemente la puntuación de un individuo debido a alguna característica particular de una persona, o la prueba no mide la construcción prevista (Crocker y Algina, 1986).
- Los errores aleatorios son el tipo de errores que afectan la puntuación de un individuo debido a los acontecimientos puramente casuales, como adivinar, distracciones en la situación de prueba, errores de administración, muestreo de contenido, errores de puntuación y fluctuaciones en el estado del examen individual (Crocker y Algina, 1986) .
Ambos afectan la interpretación de la puntuación. Los errores de medición sistemáticos no dan como resultado una medición inconsistente, sin embargo, aún así pueden hacer que los puntajes de las pruebas sean inacratos y, por lo tanto, reduzcan su utilidad práctica. Los errores aleatorios reducen tanto la consistencia como la utilidad de los puntajes de las pruebas (Crocker y Algina, 1986).
- La fiabilidad se refiere a la precisión o precisión de un proceso de medición, o en otra palabra, consistencia sobre las réplicas del procedimiento de prueba (Crocker y Algina, 1986)
- Los errores sistemáticos son los errores que afectan constantemente la puntuación de un individuo debido a alguna característica particular de una persona, o la prueba no mide la construcción prevista (Crocker y Algina, 1986).
- Los errores aleatorios son el tipo de errores que afectan la puntuación de un individuo debido a los acontecimientos puramente casuales, como adivinar, distracciones en la situación de prueba, errores de administración, muestreo de contenido, errores de puntuación y fluctuaciones en el estado del examen individual (Crocker y Algina, 1986) .
Según Shadish, Cook y Campbell (2002) dividieron la validez a cuatro tipos:
- La fiabilidad se refiere a la precisión o precisión de un proceso de medición, o en otra palabra, consistencia sobre las réplicas del procedimiento de prueba (Crocker y Algina, 1986)
- Los errores sistemáticos son los errores que afectan constantemente la puntuación de un individuo debido a alguna característica particular de una persona, o la prueba no mide la construcción prevista (Crocker y Algina, 1986).
- Los errores aleatorios son el tipo de errores que afectan la puntuación de un individuo debido a los acontecimientos puramente casuales, como adivinar, distracciones en la situación de prueba, errores de administración, muestreo de contenido, errores de puntuación y fluctuaciones en el estado del examen individual (Crocker y Algina, 1986) .
Artículos Relacionados:
