Hay docenas de modelos de evaluación de aprendizaje actualmente en la práctica. Este artículo proporciona una visión general rápida de 4 modelos de evaluación que encontrará más útiles: Kirkpatrick, Kaufman, Anderson y Brinkerhoff.
El modelo de evaluación de aprendizaje de Kirkpatrick se ha utilizado durante más de 50 años. El modelo nos anima a evaluar el aprendizaje en cuatro niveles:
- Reacción: ¿disfrutaron el entrenamiento?
- Aprendizaje: ¿aprobaron la evaluación?
- Comportamiento: ¿funcionan mejor?
- Resultados: ¿mejoraron las métricas comerciales?
Lo importante es medir en los cuatro niveles para que pueda ver exactamente cómo cada etapa del diseño de su aprendizaje fue efectiva. Diseñe su programa de aprendizaje comenzando con un problema comercial. Luego identifique las acciones necesarias para resolver ese problema y el aprendizaje necesario para apoyar esas acciones. Una vez que eso esté completo, diseñe el programa necesario para que ese aprendizaje suceda. Sus métricas de evaluación deben seguir esa misma cadena para que si no cumple con el objetivo comercial, sabrá dónde salió mal.
Varios modelos se basan o reaccionan a Kirkpatrick. El modelo de evaluación de aprendizaje de Kaufman es uno de esos. Hace dos cambios significativos de Kirkpatrick:
- Reacción: ¿disfrutaron el entrenamiento?
- Aprendizaje: ¿aprobaron la evaluación?
- Comportamiento: ¿funcionan mejor?
- Resultados: ¿mejoraron las métricas comerciales?
Me gusta que Kaufman nos anime a evaluar los recursos de aprendizaje por separado de la entrega, ya que estas son realmente cosas diferentes. Estoy menos interesado en su quinto nivel. La mayoría de las organizaciones luchan por capturar datos sobre el impacto de un programa de aprendizaje en las métricas comerciales, y mucho menos pidiéndonos que desconectemos el impacto en la sociedad en general. El impacto en los clientes es ciertamente importante, pero esto normalmente ya está envuelto como parte de las métricas comerciales.
¿Cuáles son los modelos de evaluación que existen?
Para ilustrar cómo se puede utilizar nuestra tipología bidimensional, en los siguientes párrafos proponemos el posicionamiento relativo de algunos modelos de evaluación bien conocidos. Sin embargo, prefacimos nuestra discusión con dos descargas de responsabilidad. Primero, los modelos son bestias intelectualmente resbaladizas; Cada vez que uno de nosotros sentimos que habíamos comprendido seguro dónde se colocaba un modelo, el otro presentaría una interpretación diferente que volvería a abrir la pregunta. Si bien logramos llegar a un consenso, no pretendemos ofrecer respuestas definitivas. Como explicamos en la tercera sección de este artículo, nuestra ambición no es posicionar estos modelos de evaluación definitivamente, sino ofrecer información transte-teórica e innovadora sobre las relaciones entre el uso, los modelos y los contextos. En segundo lugar, aunque hemos colocado los modelos en matrices bidimensionales, debemos enfatizar que el número de cuadrados que ocupan no tiene nada que ver con su utilidad respectiva o la amplitud de su relevancia.
El uso es fundamental para la Evaluación (UFE) centrada en la utilización de Patton, que ‘comienza con la premisa de que las evaluaciones deben ser juzgadas por su utilidad y uso real; Por lo tanto, los evaluadores deben facilitar el proceso de evaluación y diseñar cualquier evaluación con una consideración cuidadosa de cómo todo lo que se hace, de principio a fin, afectará el uso «(Patton, 1997: 20). El objetivo de la UFE es el uso previsto (de los resultados de la evaluación) por los usuarios previstos (Patton, 2005). Todos los pasos de la evaluación se consideran con el objetivo de facilitar el uso por parte de los usuarios previstos, comúnmente llamados partes interesadas. Patton define a las partes interesadas como «personas que tienen una participación, un interés personal, en los hallazgos de la evaluación» (Patton, 1997: 41). El primer paso en la UFE consiste en identificar los usuarios previstos de los resultados de la evaluación y trabajar estrechamente con ellos para dibujar los parámetros de evaluación. Por definición, esto implica que los usuarios se han comprometido, desde el principio, a invertir dinero y atención en el proceso de evaluación. Esta posición coloca en el poste de usuario del eje de equilibrio de costos compartidos.
Posicionar la vida en términos de polarización no es tan sencillo. Una interpretación considera que UFE tiene como objetivo construir un consenso entre las partes interesadas y fomenta solo un uso instrumental (a diferencia de otros tipos de uso (Beyer y Trice, 1982)), en cuyo caso sería difícil concebir cómo la UFE podría implementarse fuera contextos de baja polarización. Otra interpretación, basada en una visión más restrictiva de los usuarios, postula que si los usuarios son un subconjunto de todas las partes interesadas, y si esos usuarios podrían apropiarse de los hallazgos de la evaluación para defender estratégicamente sus propias preferencias e intereses, entonces la UFE puede implementarse en cualquier contexto independientemente de del nivel de polarización. En la descripción de Patton de la vida, el objetivo de fomentar el uso instrumental (Patton, 2005) domina claramente sobre estratégico (Greenberg y Mandell, 1991; Whiteman, 1985) o simbólico (Beyer y Trice, 1982; Knorr, 1977; Weiss y Bucuvalas, 1980aa. ) usar. Sin embargo, uno podría interpretar esta postura como con el objetivo de aumentar el uso instrumental de la evaluación en un grupo específico de usuarios primarios para, en un segundo paso, desempeñar un papel estratégico en un ámbito polarizado más amplio. Nuestra propia comprensión de la vida tiene esta segunda vista y se ilustra en la Figura 1.
¿Cuáles son los modelos de evaluación institucional?
Primero realizamos un análisis estadístico preliminar simple, prueba t y chi-cuadrado, sin intentar controlar las covariables. Luego realizamos análisis de regresión agregando datos disponibles sobre covariables para determinar el alcance de la relación entre la variable independiente y la variable de resultado mientras se controla las covariables. Sin embargo, nos preocupaba que los análisis preliminares en cada evaluación controlen insuficientemente para posibles factores de confusión. Para intentar mejorar los análisis, empleamos una coincidencia de puntaje de propensión para crear grupos equivalentes y controlar los factores que podrían afectar el análisis de la relación entre la participación en el programa de educación y los resultados relevantes.
Para las tres evaluaciones, utilizamos la herramienta de coincidencia de puntaje de propensión en SPSS para realizar los partidos. El primer paso fue comparar los perfiles de los grupos de estudiantes que participaron en las diferentes condiciones de tratamiento (por ejemplo, aquellos que participaron en un seminario de primer año frente a aquellos que no lo hicieron) utilizando los datos disponibles en la oficina de investigación institucional de la universidad. Ejecutar regresiones preliminares nos permitió identificar qué factores estaban relacionados con las variables de resultado y cuáles no debían determinar qué incluir en la coincidencia. También verificamos la colinealidad para ver qué factores podrían ser redundantes.
A continuación, generamos los puntajes de propensión, es decir, las probabilidades predichas de la participación del estudiante en un grupo de tratamiento, utilizando un modelo de regresión logística con membresía en el grupo como la variable dependiente y los atributos de referencia como las variables predictoras (Austin, 2011). Incluimos las características relevantes (ayudadas por los resultados de regresión y colinealidad) para generar la probabilidad predicha, como el género, la raza, el GPA, et al. Luego coincidimos con los miembros del grupo con la centésima más cercana (es decir, una pinza de 0.01) en las características clave que incluimos en el PSM. Esto se puede hacer utilizando el comando PSM en SPSS (u otro programa de software estadístico). Alternativamente, el puntaje de propensión se puede generar ejecutando una regresión logística con la participación en el tratamiento/programa como la variable dependiente y guardando las probabilidades como la variable predictor para la participación en el programa/tratamiento. Los grupos de comparación se combinan utilizando la variable predictor con la centésima más cercana como el corte para crear los dos grupos, uno que participó en el tratamiento, uno que no lo hizo. Las pruebas t estándar o los chi-squares se ejecutan para comparar los «grupos coincidentes» en función de un resultado como GPA o retención.
¿Por qué son importantes los modelos de evaluación?
La evaluación es una parte importante del camino didáctico moderno: es el momento en que, con criterios sistemáticos, los maestros evalúan el desempeño de los alumnos pero también, en consecuencia, la efectividad de su propia enseñanza, así como la calidad de la calidad del Oferta de capacitación de la escuela.
Si Triple es, por lo tanto, el objeto de la evaluación, también hay tres destinatarios de los mismos: a través de TI, los estudiantes, los maestros y los padres llegan a saber, en diferentes momentos, el nivel de adquisición de los objetivos identificados ex-Ante-en la programación educativa fase.
Sin embargo, es importante especificar que la evaluación no es un juicio absoluto y definitivo sobre los escolares como personas, sino que puede cambiar en Itinere y, sobre todo, está relacionado solo con los objetivos que se han establecido en clase: tanto en el nivel del conocimiento del contenido del plan de estudios, tanto en el nivel de habilidades (y por esto, debe agradecer a Grant Wiggins, mencionado más adelante).
Aquellos que evalúan a los alumnos es ciertamente el personal docente, pero en sus diversas formas: la evaluación es llevada a cabo por los consejos de clase, de Interclasse, por la junta docente y el Consejo del Instituto.
Todo esto es necesario para no perder de vista la relatividad del juicio, incluso dentro del contexto escolar (en un lado más) donde opera el niño/a.
Se ha dicho que la evaluación representa una parte integral del diseño curricular y, de hecho, de acuerdo con este último, la evaluación incluye cuatro momentos principales:
1- La evaluación inicial y colectiva de la clase;
¿Qué es un modelo en la evaluación?
La selección del modelo es una técnica para seleccionar el mejor modelo después de que los modelos individuales se evalúan en función de los criterios requeridos.
Los métodos de remuestreo, como su nombre indica, son técnicas simples de reorganización de muestras de datos para inspeccionar si el modelo funciona bien en las muestras de datos en las que no ha sido entrenado. En otras palabras, el remuestreo nos ayuda a comprender si el modelo se generalizará bien.
Las divisiones aleatorias se utilizan para probar aleatoriamente un porcentaje de datos en entrenamiento, pruebas y conjuntos de validación preferiblemente. La ventaja de este método es que existe una buena posibilidad de que la población original esté bien representada en los tres conjuntos. En términos más formales, la división aleatoria evitará un muestreo sesgado de datos.
Es muy importante tener en cuenta el uso del conjunto de validación en la selección del modelo. El conjunto de validación es el segundo conjunto de pruebas y uno podría preguntar, ¿por qué tener dos conjuntos de pruebas?
En el proceso de selección de características y ajuste del modelo, el conjunto de pruebas se utiliza para la evaluación del modelo. Esto significa que los parámetros del modelo y el conjunto de características se seleccionan de modo que dan un resultado óptimo en el conjunto de pruebas. Por lo tanto, el conjunto de validación que tiene puntos de datos completamente invisibles (no se ha utilizado en los módulos de ajuste y selección de características) se usa para la evaluación final.
¿Qué es un modelo de evaluación docente?
Característica 1: Estándares de desempeño del maestro. Los estándares de rendimiento son las responsabilidades o deberes laborales realizados por un maestro; En consecuencia, los estándares de desempeño representan las principales responsabilidades laborales que un maestro cumple. Hace varios años abogé por un conjunto de más o menos 20 estándares para su uso en la evaluación del maestro. Sin embargo, después de probar este sistema con muchas organizaciones durante numerosos años, me convencí de que este diseño simplemente no es práctico. Por lo tanto, me mudé a un conjunto de estándares más simplificado que conserva el perfil de diagnóstico del rendimiento del maestro, con siete estándares de rendimiento del maestro incluidos en la versión de mi sistema que se está pilotando en Nueva Jersey:
El maestro comprende el plan de estudios, el contenido de la asignatura, el conocimiento pedagógico y las necesidades de desarrollo de los estudiantes
El maestro planea usar los estándares estatales, el plan de estudios del distrito, las estrategias efectivas, los recursos y los datos.
El maestro utiliza una variedad de estrategias de instrucción efectivas para satisfacer las necesidades de aprendizaje individual.
El maestro utiliza una variedad de estrategias y datos de evaluación formativa y sumativa.
El maestro ofrece un entorno académico bien administrado, seguro, centrado en el alumno y que conduce al aprendizaje.
El maestro mantiene un compromiso con la ética profesional y el crecimiento profesional y la comunicación efectiva con todos los interesados.
Los esfuerzos de instrucción del maestro dan como resultado un progreso de los estudiantes aceptable y medible basado en estándares y objetivos establecidos.
¿Cómo hacer un modelo de evaluación?
Entonces, ha creado un modelo de aprendizaje automático y lo ha entrenado en algunos datos… ¿ahora qué? En esta publicación, discutiré cómo evaluar su modelo y consejos prácticos para mejorar el modelo en función de lo que aprendemos evaluarlo.
- ¿Qué tan bien está haciendo mi modelo? ¿Es un modelo útil?
- ¿Entrenar a mi modelo en más datos mejorará su rendimiento?
- ¿Necesito incluir más funciones?
Lo más importante que puede hacer para evaluar adecuadamente su modelo es no capacitar al modelo en todo el conjunto de datos. Repito: no capacite al modelo en todo el conjunto de datos. Hablé sobre esto en mi publicación sobre la preparación de datos para un modelo de aprendizaje automático y lo mencionaré nuevamente ahora porque es tan importante. Una división típica de tren/prueba sería usar el 70% de los datos para el entrenamiento y el 30% de los datos para las pruebas.
Como discutí anteriormente, es importante usar nuevos datos al evaluar nuestro modelo para evitar la probabilidad de sobreajustar al conjunto de capacitación. Sin embargo, a veces es útil evaluar nuestro modelo, ya que lo estamos creando para encontrar los mejores parámetros de un modelo, pero no podemos usar el conjunto de pruebas para esta evaluación o de lo contrario terminaremos seleccionando los parámetros que funcionan mejor en Los datos de prueba, pero tal vez no los parámetros que se generalizan mejor. Para evaluar el modelo mientras aún construye y ajusta el modelo, creamos un tercer subconjunto de los datos conocidos como conjunto de validación. Una división típica de tren/prueba/validación sería utilizar el 60% de los datos para la capacitación, el 20% de los datos para la validación y el 20% de los datos para las pruebas.
También observaré que es muy importante barajar los datos antes de hacer estas divisiones para que cada división tenga una representación precisa del conjunto de datos.
Artículos Relacionados:
