El aprendizaje de refuerzo jerárquico trabaja con acciones o habilidades extendidas temporalmente para facilitar el aprendizaje. Cómo formar automáticamente dicha abstracción es un reto, y muchos esfuerzos abordan esta cuestión en el marco de las opciones. Aunque existen varios enfoques para construir opciones desde diferentes perspectivas, pocos de ellos se concentran en la adaptabilidad de las opciones durante el aprendizaje. Este artículo presenta un algoritmo para crear opciones y mejorar su calidad en línea. Ambos aspectos operan sobre comunidades detectadas del gráfico de transición de estados del entorno de aprendizaje. Primero construimos opciones a partir de muestras iniciales como base del aprendizaje en línea. A continuación, se propone un algoritmo de revisión de comunidades basado en reglas para actualizar las particiones del grafo, a partir de las cuales se pueden ajustar continuamente las opciones existentes. Los resultados experimentales en dos problemas indican que las opciones a partir de muestras iniciales pueden funcionar mal en entornos más complejos, y nuestra estrategia presentada puede mejorar eficazmente las opciones y obtener mejores resultados en comparación con el aprendizaje por refuerzo plano.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Asociación entre el polimorfismo de nucleótido único rs9891119 del gen STAT3 y la susceptibilidad genética a la diabetes de tipo 2 en la población china Han de Guangdong.
Artículo:
Estrategia de árbol optimizado con análisis de componentes principales mediante clasificación basada en la selección de características para los síntomas de ictericia en recién nacidos
Artículo:
Enfoque de simulación de interacción local para la detección de fallos en transductores ultrasónicos médicos
Artículo:
Biotipos y susceptibilidad antimicrobiana de S. mutans en niños con y sin caries dental
Artículo:
Avances recientes en la detección acústica distribuida basada en la reflectometría óptica en el dominio del tiempo sensible a la fase
Folleto:
Análisis de rentabilidad económica y financiera
Artículo:
¿Por qué debemos conservar la fauna silvestre?
Artículo:
Control y vigilancia de la calidad del agua de consumo humano
Manual:
Deshidratación y desecado de frutas, hortalizas y hongos. Procedimientos hogareños y comerciales de pequeña escala