d9/d31/sdyna_8h_source.html

/****************************************************************************

 *   This file is part of the aGrUM/pyAgrum library.                        *

 *                                                                          *

 *   Copyright (c) 2005-2025 by                                             *

 *       - Pierre-Henri WUILLEMIN(_at_LIP6)                                 *

 *       - Christophe GONZALES(_at_AMU)                                     *

 *                                                                          *

 *   The aGrUM/pyAgrum library is free software; you can redistribute it    *

 *   and/or modify it under the terms of either :                           *

 *                                                                          *

 *    - the GNU Lesser General Public License as published by               *

 *      the Free Software Foundation, either version 3 of the License,      *

 *      or (at your option) any later version,                              *

 *    - the MIT license (MIT),                                              *

 *    - or both in dual license, as here.                                   *

 *                                                                          *

 *   (see https://agrum.gitlab.io/articles/dual-licenses-lgplv3mit.html)    *

 *                                                                          *

 *   This aGrUM/pyAgrum library is distributed in the hope that it will be  *

 *   useful, but WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED,          *

 *   INCLUDING BUT NOT LIMITED TO THE WARRANTIES MERCHANTABILITY or FITNESS *

 *   FOR A PARTICULAR PURPOSE  AND NONINFRINGEMENT. IN NO EVENT SHALL THE   *

 *   AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER *

 *   LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE,        *

 *   ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR  *

 *   OTHER DEALINGS IN THE SOFTWARE.                                        *

 *                                                                          *

 *   See LICENCES for more details.                                         *

 *                                                                          *

 *   SPDX-FileCopyrightText: Copyright 2005-2025                            *

 *       - Pierre-Henri WUILLEMIN(_at_LIP6)                                 *

 *       - Christophe GONZALES(_at_AMU)                                     *

 *   SPDX-License-Identifier: LGPL-3.0-or-later OR MIT                      *

 *                                                                          *

 *   Contact  : info_at_agrum_dot_org                                       *

 *   homepage : http://agrum.gitlab.io                                      *

 *   gitlab   : https://gitlab.com/agrumery/agrum                           *

 *                                                                          *

 ****************************************************************************/


// =========================================================================

#ifndef GUM_SDYNA_H

#define GUM_SDYNA_H

// =========================================================================

#include <agrum/agrum.h>

// =========================================================================

// =========================================================================

#include <agrum/FMDP/decision/randomDecider.h>

#include <agrum/FMDP/decision/statisticalLazyDecider.h>

#include <agrum/FMDP/planning/adaptiveRMaxPlaner.h>


#include <agrum/FMDP/decision/E_GreedyDecider.h>


// =========================================================================


namespace gum {


  class SDYNA {

    // ###################################################################

    // ###################################################################


    public:

    // ==========================================================================

    // ==========================================================================


    static SDYNA* spitiInstance(double attributeSelectionThreshold = 0.99,

                                double discountFactor              = 0.9,

                                double epsilon                     = 1,

                                Idx    observationPhaseLenght      = 100,

                                Idx    nbValueIterationStep        = 10) {

      bool               actionReward = false;

      ILearningStrategy* ls

          = new FMDPLearner< CHI2TEST, CHI2TEST, ITILEARNER >(attributeSelectionThreshold,

                                                              actionReward);

      IPlanningStrategy< double >* ps

          = StructuredPlaner< double >::sviInstance(discountFactor, epsilon);

      IDecisionStrategy* ds = new E_GreedyDecider();

      return new SDYNA(ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);

    }


    // ==========================================================================

    // ==========================================================================


    static SDYNA* spimddiInstance(double attributeSelectionThreshold = 0.99,

                                  double similarityThreshold         = 0.3,

                                  double discountFactor              = 0.9,

                                  double epsilon                     = 1,

                                  Idx    observationPhaseLenght      = 100,

                                  Idx    nbValueIterationStep        = 10) {

      bool               actionReward = false;

      ILearningStrategy* ls

          = new FMDPLearner< GTEST, GTEST, IMDDILEARNER >(attributeSelectionThreshold,

                                                          actionReward,

                                                          similarityThreshold);

      IPlanningStrategy< double >* ps

          = StructuredPlaner< double >::spumddInstance(discountFactor, epsilon, false);

      IDecisionStrategy* ds = new E_GreedyDecider();

      return new SDYNA(ls,

                       ps,

                       ds,

                       observationPhaseLenght,

                       nbValueIterationStep,

                       actionReward,

                       false);

    }


    // ==========================================================================

    // ==========================================================================


    static SDYNA* RMaxMDDInstance(double attributeSelectionThreshold = 0.99,

                                  double similarityThreshold         = 0.3,

                                  double discountFactor              = 0.9,

                                  double epsilon                     = 1,

                                  Idx    observationPhaseLenght      = 100,

                                  Idx    nbValueIterationStep        = 10) {

      bool               actionReward = true;

      ILearningStrategy* ls

          = new FMDPLearner< GTEST, GTEST, IMDDILEARNER >(attributeSelectionThreshold,

                                                          actionReward,

                                                          similarityThreshold);

      AdaptiveRMaxPlaner* rm

          = AdaptiveRMaxPlaner::ReducedAndOrderedInstance(ls, discountFactor, epsilon);

      IPlanningStrategy< double >* ps = rm;

      IDecisionStrategy*           ds = rm;

      return new SDYNA(ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);

    }


    // ==========================================================================

    // ==========================================================================


    static SDYNA* RMaxTreeInstance(double attributeSelectionThreshold = 0.99,

                                   double discountFactor              = 0.9,

                                   double epsilon                     = 1,

                                   Idx    observationPhaseLenght      = 100,

                                   Idx    nbValueIterationStep        = 10) {

      bool               actionReward = true;

      ILearningStrategy* ls

          = new FMDPLearner< GTEST, GTEST, ITILEARNER >(attributeSelectionThreshold, actionReward);

      AdaptiveRMaxPlaner* rm = AdaptiveRMaxPlaner::TreeInstance(ls, discountFactor, epsilon);

      IPlanningStrategy< double >* ps = rm;

      IDecisionStrategy*           ds = rm;

      return new SDYNA(ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);

    }


    // ==========================================================================

    // ==========================================================================


    static SDYNA* RandomMDDInstance(double attributeSelectionThreshold = 0.99,

                                    double similarityThreshold         = 0.3,

                                    double discountFactor              = 0.9,

                                    double epsilon                     = 1,

                                    Idx    observationPhaseLenght      = 100,

                                    Idx    nbValueIterationStep        = 10) {

      bool               actionReward = true;

      ILearningStrategy* ls

          = new FMDPLearner< GTEST, GTEST, IMDDILEARNER >(attributeSelectionThreshold,

                                                          actionReward,

                                                          similarityThreshold);

      IPlanningStrategy< double >* ps

          = StructuredPlaner< double >::spumddInstance(discountFactor, epsilon);

      IDecisionStrategy* ds = new RandomDecider();

      return new SDYNA(ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);

    }


    // ==========================================================================

    // ==========================================================================


    static SDYNA* RandomTreeInstance(double attributeSelectionThreshold = 0.99,

                                     double discountFactor              = 0.9,

                                     double epsilon                     = 1,

                                     Idx    observationPhaseLenght      = 100,

                                     Idx    nbValueIterationStep        = 10) {

      bool               actionReward = true;

      ILearningStrategy* ls

          = new FMDPLearner< CHI2TEST, CHI2TEST, ITILEARNER >(attributeSelectionThreshold,

                                                              actionReward);

      IPlanningStrategy< double >* ps

          = StructuredPlaner< double >::sviInstance(discountFactor, epsilon);

      IDecisionStrategy* ds = new RandomDecider();

      return new SDYNA(ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);

    }


    // ###################################################################

    // ###################################################################


    // ==========================================================================

    // ==========================================================================


    private:

    SDYNA(ILearningStrategy*           learner,

          IPlanningStrategy< double >* planer,

          IDecisionStrategy*           decider,

          Idx                          observationPhaseLenght,

          Idx                          nbValueIterationStep,

          bool                         actionReward,

          bool                         verbose = true);


    // ==========================================================================

    // ==========================================================================


    public:

    ~SDYNA();


    // ###################################################################

    // ###################################################################


    public:

    // ==========================================================================

    // ==========================================================================


    void addAction(const Idx actionId, const std::string& actionName) {

      fmdp_->addAction(actionId, actionName);

    }


    // ==========================================================================

    // ==========================================================================

    void addVariable(const DiscreteVariable* var) { fmdp_->addVariable(var); }


    // ###################################################################

    // ###################################################################


    public:

    // ==========================================================================

    // ==========================================================================

    void initialize();


    // ==========================================================================

    // ==========================================================================

    void initialize(const Instantiation& initialState);


    // ###################################################################

    // ###################################################################


    public:

    // ==========================================================================

    // ==========================================================================

    void setCurrentState(const Instantiation& currentState) { lastState_ = currentState; }


    // ==========================================================================

    // ==========================================================================

    Idx takeAction(const Instantiation& curState);


    // ==========================================================================

    // ==========================================================================

    Idx takeAction();


    // ==========================================================================

    // ==========================================================================

    void feedback(const Instantiation& originalState,

                  const Instantiation& reachedState,

                  Idx                  performedAction,

                  double               obtainedReward);


    // ==========================================================================

    // ==========================================================================

    void feedback(const Instantiation& reachedState, double obtainedReward);


    // ==========================================================================

    // ==========================================================================

    void makePlanning(Idx nbStep);


    public:

    // ==========================================================================

    // ==========================================================================

    std::string toString();


    std::string optimalPolicy2String() { return _planer_->optimalPolicy2String(); }


    // ###################################################################

    // ###################################################################


    public:

    // ==========================================================================

    // ==========================================================================

    Size learnerSize() { return _learner_->size(); }


    // ==========================================================================

    // ==========================================================================

    Size modelSize() { return fmdp_->size(); }


    // ==========================================================================

    // ==========================================================================

    Size valueFunctionSize() { return _planer_->vFunctionSize(); }


    // ==========================================================================

    // ==========================================================================

    Size optimalPolicySize() { return _planer_->optimalPolicySize(); }


    protected:

    FMDP< double >* fmdp_;


    Instantiation lastState_;


    private:

    ILearningStrategy* _learner_;


    IPlanningStrategy< double >* _planer_;


    IDecisionStrategy* _decider_;


    Idx _observationPhaseLenght_;


    Idx _nbObservation_;


    Idx _nbValueIterationStep_;


    Idx _lastAction_;


    Set< Observation* > _bin_;


    bool _actionReward_;


    bool verbose_;

  };


} /* namespace gum */


#endif   // GUM_SDYNA_H

E_GreedyDecider.h
Headers of the epsilon-greedy decision maker class.

adaptiveRMaxPlaner.h
Headers of the RMax planer class.

agrum.h

gum::AdaptiveRMaxPlaner
<agrum/FMDP/planning/adaptiveRMaxPlaner.h>
Definition adaptiveRMaxPlaner.h:73

gum::AdaptiveRMaxPlaner::ReducedAndOrderedInstance
static AdaptiveRMaxPlaner * ReducedAndOrderedInstance(const ILearningStrategy *learner, double discountFactor=0.9, double epsilon=0.00001, bool verbose=true)
Definition adaptiveRMaxPlaner.h:83

gum::AdaptiveRMaxPlaner::TreeInstance
static AdaptiveRMaxPlaner * TreeInstance(const ILearningStrategy *learner, double discountFactor=0.9, double epsilon=0.00001, bool verbose=true)
Definition adaptiveRMaxPlaner.h:97

gum::DiscreteVariable
Base class for discrete random variable.
Definition discreteVariable.h:78

gum::E_GreedyDecider
<agrum/FMDP/decision/E_GreedyDecider.h>
Definition E_GreedyDecider.h:73

gum::FMDPLearner
Definition fmdpLearner.h:76

gum::FMDP< double >

gum::IDecisionStrategy
<agrum/FMDP/SDyna/IDecisionStrategy.h>
Definition IDecisionStrategy.h:70

gum::ILearningStrategy
<agrum/FMDP/SDyna/ILearningStrategy.h>
Definition ILearningStrategy.h:74

gum::IPlanningStrategy< double >

gum::Instantiation
Class for assigning/browsing values to tuples of discrete variables.
Definition instantiation.h:102

gum::RandomDecider
Class to make decision randomly.
Definition randomDecider.h:70

gum::SDYNA::initialize
void initialize()
Initializes the Sdyna instance.
Definition sdyna.cpp:117

gum::SDYNA::_learner_
ILearningStrategy * _learner_
The learner used to learn the FMDP.
Definition sdyna.h:433

gum::SDYNA::optimalPolicySize
Size optimalPolicySize()
optimalPolicySize
Definition sdyna.h:419

gum::SDYNA::_lastAction_
Idx _lastAction_
The last performed action.
Definition sdyna.h:452

gum::SDYNA::_nbValueIterationStep_
Idx _nbValueIterationStep_
The number of Value Iteration step we perform.
Definition sdyna.h:449

gum::SDYNA::lastState_
Instantiation lastState_
The state in which the system is before we perform a new action.
Definition sdyna.h:429

gum::SDYNA::RandomMDDInstance
static SDYNA * RandomMDDInstance(double attributeSelectionThreshold=0.99, double similarityThreshold=0.3, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition sdyna.h:169

gum::SDYNA::modelSize
Size modelSize()
modelSize
Definition sdyna.h:403

gum::SDYNA::learnerSize
Size learnerSize()
learnerSize
Definition sdyna.h:395

gum::SDYNA::setCurrentState
void setCurrentState(const Instantiation &currentState)
Sets last state visited to the given state.
Definition sdyna.h:310

gum::SDYNA::~SDYNA
~SDYNA()
Destructor.
Definition sdyna.cpp:98

gum::SDYNA::spitiInstance
static SDYNA * spitiInstance(double attributeSelectionThreshold=0.99, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition sdyna.h:87

gum::SDYNA::takeAction
Idx takeAction()
Definition sdyna.cpp:234

gum::SDYNA::_planer_
IPlanningStrategy< double > * _planer_
The planer used to plan an optimal strategy.
Definition sdyna.h:436

gum::SDYNA::fmdp_
FMDP< double > * fmdp_
The learnt Markovian Decision Process.
Definition sdyna.h:426

gum::SDYNA::addAction
void addAction(const Idx actionId, const std::string &actionName)
Inserts a new action in the SDyna instance.
Definition sdyna.h:252

gum::SDYNA::_bin_
Set< Observation * > _bin_
Since SDYNA made these observation, it has to delete them on quitting.
Definition sdyna.h:455

gum::SDYNA::valueFunctionSize
Size valueFunctionSize()
valueFunctionSize
Definition sdyna.h:411

gum::SDYNA::_nbObservation_
Idx _nbObservation_
The total number of observation made so far.
Definition sdyna.h:446

gum::SDYNA::_actionReward_
bool _actionReward_
Definition sdyna.h:457

gum::SDYNA::_decider_
IDecisionStrategy * _decider_
The decider.
Definition sdyna.h:439

gum::SDYNA::RMaxMDDInstance
static SDYNA * RMaxMDDInstance(double attributeSelectionThreshold=0.99, double similarityThreshold=0.3, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition sdyna.h:131

gum::SDYNA::optimalPolicy2String
std::string optimalPolicy2String()
Definition sdyna.h:379

gum::SDYNA::verbose_
bool verbose_
Definition sdyna.h:459

gum::SDYNA::toString
std::string toString()
Returns.
Definition sdyna.cpp:248

gum::SDYNA::feedback
void feedback(const Instantiation &originalState, const Instantiation &reachedState, Idx performedAction, double obtainedReward)
Performs a feedback on the last transition.
Definition sdyna.cpp:149

gum::SDYNA::addVariable
void addVariable(const DiscreteVariable *var)
Inserts a new variable in the SDyna instance.
Definition sdyna.h:266

gum::SDYNA::spimddiInstance
static SDYNA * spimddiInstance(double attributeSelectionThreshold=0.99, double similarityThreshold=0.3, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition sdyna.h:105

gum::SDYNA::RMaxTreeInstance
static SDYNA * RMaxTreeInstance(double attributeSelectionThreshold=0.99, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition sdyna.h:152

gum::SDYNA::makePlanning
void makePlanning(Idx nbStep)
Starts a new planning.
Definition sdyna.cpp:206

gum::SDYNA::_observationPhaseLenght_
Idx _observationPhaseLenght_
The number of observation we make before using again the planer.
Definition sdyna.h:443

gum::SDYNA::SDYNA
SDYNA(ILearningStrategy *learner, IPlanningStrategy< double > *planer, IDecisionStrategy *decider, Idx observationPhaseLenght, Idx nbValueIterationStep, bool actionReward, bool verbose=true)
Constructor.
Definition sdyna.cpp:77

gum::SDYNA::RandomTreeInstance
static SDYNA * RandomTreeInstance(double attributeSelectionThreshold=0.99, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition sdyna.h:189

gum::Set
Representation of a set.
Definition set.h:131

gum::StructuredPlaner::sviInstance
static StructuredPlaner< GUM_SCALAR > * sviInstance(GUM_SCALAR discountFactor=0.9, GUM_SCALAR epsilon=0.00001, bool verbose=true)
Definition structuredPlaner.h:104

gum::StructuredPlaner::spumddInstance
static StructuredPlaner< GUM_SCALAR > * spumddInstance(GUM_SCALAR discountFactor=0.9, GUM_SCALAR epsilon=0.00001, bool verbose=true)
Definition structuredPlaner.h:92

gum::Size
std::size_t Size
In aGrUM, hashed values are unsigned long int.
Definition types.h:74

gum::Idx
Size Idx
Type for indexes.
Definition types.h:79

gum
gum is the global namespace for all aGrUM entities
Definition agrum.h:46

randomDecider.h
Headers of the Random decision maker class.

statisticalLazyDecider.h
Headers of the Statistical lazy decision maker class.