Comprensión de las bases de referencia estables

Question

Estoy tratando de entender la estructura de la política recurrente personalizada introducida en la documentación de la Stable Baselines: ¿Cómo se construye exactamente el Lstm NN? (ver código abajo) De lo que entendí de la documentación: en este caso net_arch=[8, 'lstm'] significa que antes de la LsTm hay una NN con capas ocultas del tamaño 8. Una ilustración cruda sería: observación (entrada) - título 8 nodos ocultos - título Lstm - acción confianza (output) Digamos, quiero construir la siguiente Red: observación - capa oculta de 8 nodos - confianza capa oculta de 16 nodos - título Lstm - título oculto de 16 nodos - capa de salida de confianza (salidas: de la red de política y valor) ¿Tendría que escribir? net_arch=[8,16, 'lstm',16] ? ¿Es correcto? Además, ¿qué significa exactamente eso? feature_extractor='mlp'] ? ``class CustomLSTMPolicy(LstmPolicy): def __init__(self, sess, ob_space, ac_space, n_env, n_steps, n_batch, n_lstm=64,reuse=False, **_kwargs): super().__init__(sess, ob_space, ac_space, n_env, n_steps, n_batch, n_lstm, reuse, net_arch=[8, 'lstm', dict(vf=[5, 10], pi=[10])], layer_norm=True, feature_extraction= mlp , **_kwargs)``

Gpt · Accepted Answer

El código que has proporcionado define una clase llamada CustomLSTMPolicy que extiende la clase LstmPolicy en Stable Baselines. En este caso, la arquitectura de la red neuronal para esta política personalizada se define en el argumento net_arch. Aquí tienes una explicación detallada:

En el caso de `net_arch=[8, 'lstm', dict(vf=[5, 10], pi=[10])]`, significa que la red neuronal consta de las siguientes capas:

- Una capa oculta con 8 nodos.

Una capa LSTM.

Un diccionario `dict` que define las capas para el valor de la función de ventaja (`vf`) y la política (`pi`). En este caso, hay una capa oculta con 5 nodos para la función de valor y una capa oculta con 10 nodos para la política.

Si quieres construir una red con la estructura que mencionaste: `observación - capa oculta de 8 nodos - confianza capa oculta de 16 nodos - título Lstm - título oculto de 16 nodos - capa de salida de confianza`, el `net_arch` correcto sería `[8, 16, 'lstm', 16]`. Esto se interpretaría como:

- Una capa oculta con 8 nodos.

Una capa oculta con 16 nodos.

Una capa LSTM.

Una capa oculta con 16 nodos.

Capa de salida de la política.

Respecto a `feature_extractor='mlp'`, este parámetro indica el tipo de extractor de características que se utilizará. En este caso, se está utilizando un perceptrón multicapa (`MLP`, por sus siglas en inglés). Esto significa que antes de la capa LSTM, se aplicará una red neuronal de este tipo para extraer características de las observaciones de entrada.

En resumen, si deseas ajustar la arquitectura de la red neuronal según la estructura que especificaste, puedes definir la net_arch como [8, 16, 'lstm', 16] y mantener el feature_extractor='mlp'. Esto configurará la red neuronal de acuerdo con tus requisitos especificados.

Respondida el Dec 17, 2020 a las 16:57 - por Gpt

Gemini · Answer

Construcción de LSTM NN En el código que proporcionaste, la estructura de la red neuronal LSTM se define mediante la lista net_arch: [8, 'lstm'] significa que se utilizará una red neuronal con una capa oculta de tamaño 8, seguida de una capa LSTM. Tu configuración deseada Para construir la red que has descrito, con capas ocultas adicionales, deberías utilizar la siguiente configuración net_arch: net_arch=[8, 16, 'lstm', 16] Esto creará una red con las siguientes capas: Capa oculta de 8 nodos Capa oculta de 16 nodos Capa LSTM Capa oculta de 16 nodos Explicación de feature_extractor='mlp' El argumento feature_extractor='mlp' especifica que se utilizará una red neuronal multicapa (MLP) para extraer características de las observaciones. Esto significa que se utilizarán capas neuronales totalmente conectadas para procesar las observaciones antes de pasarlas a la red LSTM. Estructura general Por lo tanto, la estructura general de tu red sería la siguiente: Observación (entrada) MLP con capas ocultas de 8 y 16 nodos LSTM con 64 nodos MLP con capas ocultas de 16 nodos Salida de política y valor (confianza) Nota: Ten en cuenta que la configuración dict(vf=[5, 10], pi=[10]) especifica la arquitectura de las redes de valor y política que se utilizan para estimar los valores de estado y las probabilidades de acción. Puedes ajustar estas arquitecturas según sea necesario para tu tarea específica.

Comprensión de las bases de referencia estables

2 Respuestas: