Este artículo analiza la noción de transferencia de contexto en las tareas de aprendizaje por refuerzo. La transferencia de contexto, tal y como se define en este trabajo, implica la transferencia de conocimiento entre tareas de origen y de destino que comparten la misma dinámica de entorno y la misma función de recompensa, pero que tienen estados o espacios de acción diferentes. En otras palabras, los agentes aprenden la misma tarea mientras utilizan diferentes sensores y actuadores. Esto requiere la existencia de un proceso de decisión de Markov (MDP) común subyacente al que se puedan asignar todos los MDP de los agentes. Esto se formula en términos de la noción de homomorfismo MDP. El marco de aprendizaje es el aprendizaje Q. Para transferir el conocimiento entre estas tareas, el espacio de características se utiliza como traductor y se expresa como un mapeo parcial entre los espacios estado-acción de las diferentes tareas. Los valores Q aprendidos durante el proceso de aprendizaje de las tareas de origen se asignan a los conjuntos de valores Q de la tarea de destino. Estos valores Q transferidos se fusionan y se utilizan para iniciar el proceso de aprendizaje de la tarea de destino. Se utiliza un enfoque basado en intervalos para representar y fusionar el conocimiento de las tareas de origen. Los resultados empíricos muestran que la inicialización transferida puede ser beneficiosa para el proceso de aprendizaje de la tarea objetivo.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Ajuste de la forma de nanopartículas de magnetita obtenidas por síntesis hidrotérmica: Efecto de la temperatura
Artículo:
Diseño de un filtro de orden óptimo y reducido para la detección eficiente de picos QRS de ECG y la clasificación de datos de arritmia
Artículo:
Biomasa agrícola fibrosa como fuente potencial para la bioconversión en ácido vanílico
Artículo:
Investigación sobre la tecnología de descripción inteligente de vídeos de voleibol que combina la red de memoria a largo y corto plazo y el mecanismo de atención
Artículo:
Actividades antifúngicas contra Fusarium de nanopartículas de cobre sintetizadas por un método de reducción química
Folleto:
Análisis de rentabilidad económica y financiera
Artículo:
¿Por qué debemos conservar la fauna silvestre?
Artículo:
Control y vigilancia de la calidad del agua de consumo humano
Manual:
Deshidratación y desecado de frutas, hortalizas y hongos. Procedimientos hogareños y comerciales de pequeña escala