Validez de criterio: ¿Qué método es el mejor para medir el rendimiento?

Obviamente, un modelo animal producido en un laboratorio nunca puede replicar exactamente un estado de enfermedad humana espontánea, por lo que ¿sobre qué base podemos evaluar su «validez» en el contexto del descubrimiento de fármacos?

Willner (1984) propuso originalmente tres tipos de criterios de validez en relación con modelos animales de depresión. Estos son:

•

La validez aparente se refiere a la precisión con la que el modelo reproduce los fenómenos (síntomas, signos clínicos y cambios patológicos) que caracterizan la enfermedad humana.

La validez de constructo se refiere a la justificación teórica en la que se basa el modelo, es decir, la medida en que la etiología de la enfermedad humana se refleja en el modelo. Un modelo animal transgénico en el que se replica una mutación productora de enfermedades humanas tendrá, en general, una buena validez de constructo, incluso si las manifestaciones del trastorno humano no se reproducen bien (es decir, tiene poca validez aparente).

La validez predictiva se refiere a la medida en que el efecto de las manipulaciones (por ejemplo, tratamiento farmacológico) en el modelo es predictivo de los efectos en el trastorno humano. Es el más pragmático de los tres y el más directamente relevante para la cuestión de predecir la eficacia terapéutica, pero también la más limitada en su aplicabilidad, por dos razones principales. Primero, los datos sobre la eficacia terapéutica a menudo son escasos o inexistentes, porque no se conocen fármacos verdaderamente efectivos (por ejemplo, para la enfermedad de Alzheimer, shock séptico). En segundo lugar, el modelo puede centrarse en un mecanismo farmacológico específico, prediciendo así con éxito la eficacia de los medicamentos que funcionan por ese mecanismo pero que fallan con medicamentos que podrían resultar efectivos a través de otros mecanismos. El conocimiento de que la primera generación de fármacos antipsicóticos actúa como antagonistas del receptor de dopamina permitió que se identifiquen nuevos fármacos mediante pruebas de animales que reflejan el antagonismo de la dopamina, pero no se puede confiar en estas pruebas para reconocer posibles compuestos de «avance» que podrían ser efectivos por otros mecanismos. Por lo tanto, la validez predictiva, que depende del conocimiento terapéutico existente, puede no ser una buena base para juzgar modelos animales donde el objetivo del equipo de descubrimiento de fármacos es producir un medicamento mecánicamente novedoso. La base sobre la cual se juzga la validez predictiva conlleva un sesgo inevitable, ya que los medicamentos que proceden a los ensayos clínicos normalmente habrán demostrado ser efectivos en el modelo, mientras que es poco probable que los medicamentos que son ineficaces en el modelo se hayan desarrollado. Como resultado, hay muchos ejemplos de pruebas que dan expectativas «falsas positivas», pero muy pocos falsos negativos, dando lugar a una opinión comúnmente sostenida de que las conclusiones de las pruebas farmacológicas tienden a ser demasiado optimistas.

¿Qué es la validez de criterio?

La validez del criterio (o la validez relacionada con el criterio) mide qué tan bien una medida predice un resultado para otra medida. Una prueba tiene este tipo de validez si es útil para predecir el rendimiento o el comportamiento en otra situación (pasado, presente o futuro). Por ejemplo:

Un solicitante de empleo toma una prueba de rendimiento durante el proceso de entrevista. Si esta prueba predice con precisión qué tan bien se desempeñará el empleado en el trabajo, se dice que la prueba tiene validez de criterio.
Un estudiante graduado toma el GRE. El GRE se ha demostrado como una herramienta efectiva (es decir, tiene validez de criterio) para predecir qué tan bien se desempeñará un estudiante en los estudios de posgrado.

La primera medida (en los ejemplos anteriores, la prueba de rendimiento laboral y el GRE) a veces se denomina variable predictor o estimador. La segunda medida se denomina variable de criterio siempre que se sepa que la medida es una herramienta válida para predecir los resultados.

Un problema importante con la validez del criterio, especialmente cuando se usa en las ciencias sociales, es que las variables de criterio relevantes pueden ser difíciles de conseguir.

Un solicitante de empleo toma una prueba de rendimiento durante el proceso de entrevista. Si esta prueba predice con precisión qué tan bien se desempeñará el empleado en el trabajo, se dice que la prueba tiene validez de criterio.
Un estudiante graduado toma el GRE. El GRE se ha demostrado como una herramienta efectiva (es decir, tiene validez de criterio) para predecir qué tan bien se desempeñará un estudiante en los estudios de posgrado.

Validez predictiva: si la prueba predice con precisión lo que se supone que debe predecir. Por ejemplo, el SAT exhibe validez predictiva para el rendimiento en la universidad. También puede referirse cuando los puntajes de la medida predictor se toman primero y luego los datos de criterio se recopilan más adelante.

Validez concurrente: cuando los datos de predictor y criterio se recopilan al mismo tiempo. También puede consultar cuando una prueba reemplaza otra prueba (es decir, porque es más barato). Por ejemplo, una prueba de controlador escrita reemplaza una prueba en persona con un instructor.

Validez postdictiva: si la prueba es una medida válida de algo que sucedió antes. Por ejemplo, ¿funciona una prueba para los recuerdos de los adultos de eventos infantiles?

¿Qué es la validez criterio?

El primer tipo de validez de criterio se conoce como validez predictiva, que determina si la medición de una variable puede predecir con precisión la medición de alguna variable en el futuro.

El ejemplo anterior de medir el puntaje de examen de ingreso a la universidad de un estudiante y su GPA del primer semestre es un ejemplo de medición de validez predictiva porque medimos las dos variables en diferentes puntos en el tiempo.

En otras palabras, estamos tratando de determinar si la puntuación del examen de ingreso puede predecir bien el GPA del primer semestre.

El segundo tipo de validez de criterio se conoce como validez concurrente, que mide dos variables simultáneamente (es decir, al mismo tiempo) para ver si una variable se asocia significativamente con la otra.

Un ejemplo de esto sería si una empresa administra algún tipo de prueba para ver si los puntajes en la prueba están correlacionados con la productividad de los empleados.

El beneficio de este enfoque es que no tenemos que esperar hasta algún momento en el futuro para tomar una medida en la variable de criterio que nos interesa.

La estadología es un sitio que facilita la explicación de las estadísticas de aprendizaje al explicar temas de manera simple y directa. Aprenda más acerca de nosotros.

Statology Study es la mejor guía de estudio de estadísticas en línea que lo ayuda a estudiar y practicar todos los conceptos centrales que se enseñan en cualquier curso de estadísticas primarias y facilita la vida como estudiante.

Introducción a las estadísticas es nuestro principal curso de video en línea que le enseña todos los temas cubiertos en estadísticas introductorias. Empiece hoy con nuestro curso.

¿Cuáles son las 4 clases de validez?

En 1954, a pedido de la Asociación Americana de Psicología, un comité presidido por L.J. Cronback determinó que había cuatro tipos de validez:

Validez de contenido
Validez predictiva
Validez de concurrencia
y la validez de la construcción

Actualmente, desde la perspectiva científica, consideramos que el único tipo de validez elegible es la validez de la construcción (Messick, 1995).

Validez de contenido
Validez predictiva
Validez de concurrencia
y la validez de la construcción

Generalización, más concretamente el grado de generalización de las inferencias hechas desde el examen a otras poblaciones, situaciones o tareas

Enlaces de examen con otras pruebas

Las consecuencias éticas y sociales del examen (3)

Por lo tanto, dentro de esta misma validez, podemos vislumbrar otros tipos de validez o estrategias. Como dijimos anteriormente, estos otros tipos son la validez del contenido, la validez predictiva, la validez que contribuyen y la validez de construcción.

Para este tipo de validez, ¿tenemos que responder la siguiente pregunta: ¿Los elementos del examen realmente constituyen una muestra representativa del dominio de contenido o el dominio de comportamiento que nos interesa?

Un campo o campo conductual es una agrupación hipotética de todos los elementos posibles que cubren una zona psicológica particular. Por ejemplo, un examen de vocabulario debe representar una muestra adecuada del dominio en esta área.

¿Qué es la validez de criterio ejemplo?

La validez del criterio es la forma más poderosa de establecer la validez de una prueba previa al empleo. También llamado validez concreta, la validez del criterio se refiere a la correlación de una prueba con un resultado concreto. En el caso de las pruebas previas al empleo, las dos variables que se comparan con mayor frecuencia son los puntajes de las pruebas y una métrica comercial particular, como el desempeño de los empleados o las tasas de retención.

La relación entre el rendimiento de la prueba y una métrica comercial se puede cuantificar mediante un coeficiente de correlación (que oscila entre -1.0 a +1.0), que puede usarse para demostrar cuán fuertemente correlacionadas están dos variables dependiendo de qué tan cerca esté el número a -1.0 o + + 1.0. Cuanto más correlacionadas están las dos variables, más validez predictiva tiene la prueba. En el caso de las pruebas previas al empleo, cuanto más correlacionados sean los puntajes de las pruebas con el desempeño laboral, más probable es que la prueba sea predecir el desempeño laboral futuro. Y como con la mayoría de las correlaciones, la validez del criterio solo se puede establecer con grandes tamaños de muestra, lo que hace que sea algo difícil de medir.

Hay dos tipos principales de validez de criterio: validez concurrente y validez predictiva. La validez concurrente se determina comparando las puntuaciones de las pruebas de los empleados actuales con una medida de su desempeño laboral. La comparación de los puntajes de las pruebas con las calificaciones de rendimiento actuales demuestra cuán correlacionada es la prueba para los empleados actuales en un puesto particular. Por ejemplo, una empresa podría administrar una prueba de personalidad de ventas a su personal de ventas para ver si existe una correlación general entre sus puntajes de prueba y una medida de su productividad.

¿Qué es validez por criterio?

Según Piéron (Vocabulary of Psychology, 1951), la validez empírica evaluada por el grado de conexión entre el rendimiento del sujeto en una prueba y su rendimiento en otra actividad que se supone que la prueba debe prever.

En esta perspectiva, la prueba se considera un instrumento que se utiliza para predecir un comportamiento llamado criterio. La validación es el estudio de la relación entre la prueba y este criterio.

El término validez empírica, generalmente utilizada en Francia, cubre lo que anglosajones llama validez de criterio, validez de criterios o validez pragmática. Para establecer la validez empírica de una prueba X en comparación con un criterio y, utilizamos una muestra representativa de la población a la que la prueba está destinada y el grado de covariación se determina entre la prueba y el criterio utilizando con el ejemplo del coeficiente de correlación de Bravais -Pearson, que a veces se llama el coeficiente de validez.

® Concreation (competidor de validez): la medida en cuestión (prueba) y el criterio o los criterios se estudian simultáneamente. Una fuerte correlación entre la prueba y estos criterios afirmará que existe una validez contribuyente (también se usan términos convergentes o concomitantes).

® Validez predictiva: se refiere a un criterio futuro que puede correlacionarse con la medida. Por lo tanto, existe un retraso entre la medición realizada con una prueba (una prueba) y la evaluación en el criterio. La prueba se utiliza para pronosticar (predecir) el criterio que se evaluará más adelante en el nivel empírico (por ejemplo, el éxito académico un año después).

¿Qué es la validez de criterio de un instrumento establecido un ejemplo?

Una compañía electoral diseña una prueba que creen que ubica a las personas a escala política, en función de un conjunto de preguntas que establecen si las personas son ala izquierda o derecha.

Con esta prueba, esperan predecir cómo es probable que las personas voten. Para evaluar la validez del criterio de la prueba, realizan un estudio piloto, seleccionando solo a miembros de los partidos políticos del ala izquierda y a la derecha.

Si la prueba tiene una alta validez concurrente, los miembros del partido izquierdista deben recibir puntajes que reflejen su ideología inclinada izquierda. Del mismo modo, los miembros de la parte del derecha deben recibir puntajes que indicen que se encuentran a la derecha.

Si esto no sucede, la prueba es defectuosa y necesita un rediseño. Si funciona, los investigadores pueden asumir que su prueba tiene una base firme, y la validez relacionada con el criterio es alta.

La mayoría de los encuestadores no lo dejarían allí y en unos pocos meses, cuando se contaran los votos de las elecciones, preguntarían a los sujetos cómo votaron realmente.

Esta validez predictiva les permite verificar su prueba, con una alta correlación que indica nuevamente que han desarrollado una sólida prueba de ideología política.

Esta prueba política es una relación lineal bastante simple, y la validez del criterio es fácil de juzgar. Para construcciones complejas, con muchos elementos interrelacionados, evaluar la validez relacionada con el criterio puede ser un proceso mucho más difícil.

Las compañías de seguros tienen que medir una construcción llamada ‘salud general’, compuesta por factores de estilo de vida, antecedentes socioeconómicos, edad, predisposiciones genéticas y una amplia gama de otros factores.

¿Cuáles son los tres tipos de validez?

La validez concurrente promueve la prueba contra una prueba de referencia y una alta correlación indica que la prueba tiene una fuerte validez de criterio.
La validez predictiva es una medida de qué tan bien una prueba predice las habilidades. Implica probar un grupo de sujetos para una determinada construcción y luego compararlos con los resultados obtenidos en algún momento en el futuro.

La validez de contenido es la estimación de cuánto representa una medida cada elemento de una construcción.

La validez de la construcción define qué tan bien una prueba o experimento mide hasta sus afirmaciones. Una prueba diseñada para medir la depresión solo debe medir esa construcción particular, no ideales estrechamente relacionados, como la ansiedad o el estrés.

La validez concurrente promueve la prueba contra una prueba de referencia y una alta correlación indica que la prueba tiene una fuerte validez de criterio.
La validez predictiva es una medida de qué tan bien una prueba predice las habilidades. Implica probar un grupo de sujetos para una determinada construcción y luego compararlos con los resultados obtenidos en algún momento en el futuro.

Las pruebas de validez convergente que se espera que estén relacionadas están, de hecho, relacionadas.

Las pruebas de validez discriminantes que las construcciones que no deberían tener relación no tienen relación, de hecho, no tienen ninguna relación. (también conocido como validez divergente)

La validez aparente es una medida de cuán representativo es un proyecto de investigación «al valor nominal» y si parece ser un buen proyecto.

¿Qué es la validez y sus características?

De 168 artículos incluidos en este estudio, la investigación ha arrojado 22 dispositivos portátiles, 38 dispositivos no portátiles y 13 instrumentos con tecnología combinada utilizada para monitorear las manifestaciones clínicas de la EP. A pesar de los resultados generales comunes, estos dispositivos abarcan diversas variables y su disponibilidad e idoneidad clínica difieren.

De estos 73 dispositivos, 30 se clasificaron como «listados» debido a la falta de uso externo o propiedades clinimétricas satisfactorias. Algunos son dispositivos originales autodesarrollados y su disponibilidad de uso por parte de otros desarrolladores se reduce. A pesar del uso de tecnología disponible comercialmente, en algunos casos, el alto costo limita el acceso a ciertos dispositivos. Además, algunas de las condiciones experimentales son difíciles de replicar y ocasionalmente el producto no estaba disponible comercialmente. Dentro de la categoría «enumerada», hay instrumentos que se han sometido a diferentes grados de pruebas clinimétricas y se pueden considerar más pruebas.

Treinta y cuatro de los 73 instrumentos evaluados fueron clasificados como «sugeridos». Estos dispositivos se basan en la tecnología disponible comercialmente utilizada en laboratorios científicos (unidades de medición inerciales, placas de fuerza, cámaras infrarrojas, ondas de radio) o por ciudadanos comunes (consolas de videojuegos, tabletas, micrófonos), que pueden explicar su uso más amplio.

¿Qué tipos de validez de constructo hay?

La validez de la construcción es la acumulación de pruebas en apoyo de la interpretación de lo que refleja una medida. La teoría de la validez moderna define la validez del constructo como el interés general de la investigación sobre la validez, incluidos todos los demás tipos de pruebas de validez, como la validez del contenido y la validez del criterio.

La validez de la construcción es la adecuación de las inferencias realizadas sobre la base de observaciones o mediciones (a menudo puntajes de las pruebas), en particular si una prueba puede considerarse razonablemente para reflejar la construcción esperada. Las construcciones son abstracciones creadas deliberadamente por los investigadores para conceptualizar la variable latente, que está relacionada con las puntuaciones en una medida dada (aunque no es directamente observable). La validez de la construcción examina la pregunta: ¿se comporta la medida como la teoría, ¿dice que una medida de esa construcción debería comportarse?

La validez de la construcción es esencial para la validez percibida general de la prueba. La validez de la construcción es particularmente importante en ciencias sociales, psicología, psicometría y estudios lingüísticos.

Psicólogos como Samuel Messick (1998) presionaron por una visión unificada de la validez de la construcción «… como un juicio de evaluación integrado del grado en que la evidencia empírica y las motivaciones teóricas respaldan la adecuación y la idoneidad de las inferencias y de los Acciones basadas en los puntajes de las pruebas. «Si bien las opiniones de Messick se hacen populares en la medición educativa y se han originado en una carrera en torno a la explicación de la validez en el contexto de la industria de las pruebas, una definición más en línea con la investigación psicológica fundamental, respaldada por empírico por empírico Los estudios basados en datos que enfatizan el razonamiento estadístico y causal fueron dados por (Borsboom et al., 2004)

¿Qué es la validez y sus tipos?

Teniendo en cuenta la validez, así como la confiabilidad de sus métodos y mediciones de investigación, es más importante que nunca mientras realiza una investigación cuantitativa.

La validez se utiliza para examinar cuán exactamente se mide algo por un método. Si un método particular realmente mide todo lo que afirma y los resultados generados se alinean estrechamente con los valores del mundo real, el método se considera válido.

La validez de la investigación se clasifica en cuatro tipos principales que involucran:

Validez de constructo
Validez de contenido
Validez aparente
Validez de criterio

Este artículo se centra en los diferentes tipos de validez de prueba que juegan un papel clave en la determinación de la precisión de los componentes reales de una medida. Sin embargo, al realizar una investigación experimental, es esencial considerar la validez interna y externa que maneja el diseño experimental y la generalización de los resultados.

Discutamos cada uno de los diferentes tipos de validez en detalle.

Con la ayuda de la validez de construcción, se hace fácil evaluar si una herramienta de medición particular realmente representa lo que queremos medir. Desempeña un papel clave para significar la validez general de un método específico.

Una construcción puede definirse como una característica o concepto que no puede observar directamente. Sin embargo, puede medirlo observando los indicadores relacionados con él.

Las construcciones pueden constituir características observadas en individuos como la felicidad, la inteligencia, la satisfacción, la aptitud, la depresión, etc. Aunque también pueden comprender conceptos más amplios que se aplican a grupos sociales o organizaciones más grandes, como responsabilidades sociales, libertad de elección, igualdad de género. , libertad de expresión, etc.

¿Cuáles son los 4 tipos o categoría de validez?

Todos los vehículos que circulan en carreteras públicas, a excepción de la tracción en los animales, para que se guíen, requieren posesión de una licencia. Para obtener el permiso de manejo, es necesario haber alcanzado una edad mínima, estar en posesión de los requisitos físicos, psíquicos y morales proporcionados por la ley y haber aprobado un examen de idoneidad específico, dividido en una prueba teórica y una práctica.

La licencia, previamente impresa por el motor civil, se entrega al candidato al final de la prueba de conducción práctica (evidentemente si se supera). Si la prueba no se supera, se destruye.

Físicamente, la licencia es una «tarjeta» de policarbonato 54×86 mm, que desde principios de 2014 ha sido reemplazada por cualquier confirmación de validez. Con motivo de la renovación, que, como veremos más adelante, tiene lugar en el método electrónico, la fecha límite de validez está conectada a la fecha de cumpleaños del propietario.

En el momento del logro, se asignan 20 puntos (virtuales) a la licencia. El equipo inicial puede disminuir en el caso de que se cometan sanciones que proporcionan la pérdida de puntaje o pueden aumentar (hasta un máximo de 30 puntos) después de cada dos años de «buena conducta».

Con la reforma entrada en vigor el 19 de enero de 2013, las categorías de licencias, las mismas en toda la Unión Europea, se han convertido en 15, en cuatro grupos principales (A, B, C, D). Dado que para aquellos que han alcanzado su licencia (o el CIGC, el certificado de idoneidad para la conducción de los cajeros de cajas, la «licencia» llamada «) antes de esa fecha no cambia nada, vemos en detalle, categoría por categoría, la categoría, el Vehículos que cada uno de ellos les permite conducir.

¿Cuáles son los tipos de validez en Psicometria?

En esta sección, discutimos el uso actual de la terminología de la validez en la investigación psicológica, para comprender cómo no cubre el problema de la investigación aplicada que aclaramos en la sección anterior. Primero, argumentamos que la comprensión dominante de la validez psicométrica es insuficiente para cubrir la cuestión de lo que constituye un proceso epistémico válido en la investigación de psicoterapia. Posteriormente, generalizamos la terminología disponible con respecto a la validez de la investigación para evaluar si esos términos permiten considerar la validez de las secuencias de operacionalización en la investigación aplicada, así como la función de las operacionalizaciones elegidas dentro del esfuerzo epistémico de los investigadores trabajadores.

La validez se convirtió en un problema en todo el campo en psicología cuando la Asociación Americana de Psicología inició un grupo de trabajo para elaborar directrices para el control de calidad de las pruebas en psicología y educación (Newton y Shaw, 2013, 2014; Slaney, 2017). Esto condujo a estándares internacionales para pruebas educativas y psicológicas, que inicialmente se basaron en el documento canónico por Cronbach y Meehl (1955). Según Cronbach, no solo es importante salvaguardar la capacidad de una medida para medir lo que debe medirse, sino que también es crucial que los desarrolladores de pruebas proporcionen pautas para el uso de pruebas válido, de modo que la interpretación de la puntuación de la prueba se pueda integrar con precisión y Justificado por la red nomológica actual. Tres décadas después, Messick (1980, 1989) distinguió la validez de las consecuencias sociales del uso. Según Messick, un instrumento debe tener validez de construcción, que es la capacidad de la prueba en sí misma para capturar las supuestas construcciones o variables teorizadas, pero esta validez debe ser independiente de la aplicación de la medida en contextos específicos. Según Messick, la aplicación adecuada es tan importante, pero estrictamente hablando, no debe llamarse validez de las pruebas, ya que las consecuencias locales específicas de la aplicación no son inherentes a la prueba en sí. Según el argumento de Messick, el término validez se separó del uso de la prueba, y aunque Messick enfatizó la importancia de ambos, su división resultó en un énfasis creciente en la validez como capacidad de prueba en lugar de uso o interpretación sólido. Esta priorización psicométrica de la validez de las pruebas está justificada por las pautas redactadas por instituciones influyentes como la Administración de Alimentos y Medicamentos de los Estados Unidos (Administración de Alimentos y Medicamentos del Departamento de Salud y Servicios Humanos de los Estados Unidos, 2009). Hasta ahora, la discusión aún va y viene entre los «liberalistas» (por ejemplo, Crooks et al., 1996; Kane, 2013) que se centran en un uso e interpretación justificados de los puntajes de las pruebas dada una red teórica en la que se integran las interpretaciones (Newton y Shaw, 2014, p. 176 y en adelante), y «conservadores» (por ejemplo, Lissitz y Samuelsen, 2007; Cizek, 2012; Borsboom, 2015) quienes argumentan que la validez debe centrarse únicamente en la sensación psicométrica de la prueba en sí misma para capturar su construcción prevista.

Según Borsboom et al. (2004), «El concepto que los teóricos de la validez se preocupan parece extrañamente divorciado del concepto de que los investigadores que trabajan tienen en mente al plantear la cuestión de la validez» (p. 1061). Con «investigadores que trabajan», se refieren a desarrolladores de pruebas que diseñan las medidas. Para un desarrollador de pruebas, argumentan, cada referencia a la teoría, las redes nomológicas o la integración de la interpretación en el cuerpo actual de conocimiento científico, distraería de su tarea principal para garantizar que la medida realmente mida la construcción real13 que pretende medir para medir (Borsboom et al., 2004, p. 1061). En la misma línea, Strauss y Smith (2009) enfatizan la necesidad de medir construcciones unidimensionales en aras de la medición válida, en la que entienden la «psicología» como psicología experimental o laboratorio, que, sin embargo, es solo una rama del campo amplio de investigación psicológica. Al interpretar «el investigador que trabaja» como investigadores psicométricos o desarrolladores de pruebas, y «psicología» como limitada al enfoque experimental, el término validez se convierte en un concepto psicométrico que de hecho debería ser lo más claro posible para el investigador que trabaja en la construcción de pruebas o experimental prueba de prueba.

Sin embargo, el problema es que esta interpretación estrictamente psicométrica prohíbe una amplia gama de investigadores en los campos de psicología y educación considerando la validez de su uso de pruebas en la investigación epistémica. Es importante destacar que el objetivo epistémico para los investigadores aplicados es principalmente diferente del objetivo psicométrico del desarrollador de pruebas (cf. Elliott y McKaughan, 2013; cf. Nota 3). Cronbach (1988), Kane (1992), e incluso Messick, ya abordó este investigador no psicométrico diferente, e incluso Messick en sus primeros años (ver Newton y Shaw, 2014). Argumentaron que el uso defectuoso de una prueba disminuye la validez del instrumento de prueba en sí, y por lo tanto el uso previsto de la prueba debe ser parte de la validación de la prueba, lo que implica tanto la interpretación del significado de puntaje como las consecuencias éticas de la interpretación de la prueba. 14 Es importante destacar que estos argumentos aún se centran en garantizar la validez del instrumento, en el que el «uso de la prueba» se entiende como la aplicación de la prueba según lo previsto por el desarrollador de la prueba.

Recientemente, un poderoso argumento fue hecho por Moss et al. (2004) para ampliar el término validez a la validez de la acción, para permitir a los usuarios aplicar y combinar de manera válida las pruebas en la práctica de evaluación de manera que vaya más allá de lo que los desarrolladores de pruebas pueden tener la intención de ser probados. Por ejemplo, los maestros que administran varias pruebas durante el año académico para evaluar si un estudiante está listo para graduarse, no pueden confiar simplemente en la validez de una prueba, pero necesitan combinar válidamente fuentes de información para formar un juicio justificado (cf. Jukola, 2017 , en juicio en evaluación científica estandarizada). En este entorno educativo, el argumento de validez debe ir más allá de las propiedades psicométricas de la prueba (véase la visión conservadora sobre la validez psicométrica), y más allá de la red nomológica en la que el constructo propuesto de la prueba está incrustado (cf. Vista liberal sobre psicométrica validez), ya que tiene que capturar la combinación de pruebas como entrada para un juicio válido en una situación dinámica y (en este ejemplo) individualizada.