d0/df5/structuredPlaner_8h_source.html

/****************************************************************************

 *   This file is part of the aGrUM/pyAgrum library.                        *

 *                                                                          *

 *   Copyright (c) 2005-2025 by                                             *

 *       - Pierre-Henri WUILLEMIN(_at_LIP6)                                 *

 *       - Christophe GONZALES(_at_AMU)                                     *

 *                                                                          *

 *   The aGrUM/pyAgrum library is free software; you can redistribute it    *

 *   and/or modify it under the terms of either :                           *

 *                                                                          *

 *    - the GNU Lesser General Public License as published by               *

 *      the Free Software Foundation, either version 3 of the License,      *

 *      or (at your option) any later version,                              *

 *    - the MIT license (MIT),                                              *

 *    - or both in dual license, as here.                                   *

 *                                                                          *

 *   (see https://agrum.gitlab.io/articles/dual-licenses-lgplv3mit.html)    *

 *                                                                          *

 *   This aGrUM/pyAgrum library is distributed in the hope that it will be  *

 *   useful, but WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED,          *

 *   INCLUDING BUT NOT LIMITED TO THE WARRANTIES MERCHANTABILITY or FITNESS *

 *   FOR A PARTICULAR PURPOSE  AND NONINFRINGEMENT. IN NO EVENT SHALL THE   *

 *   AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER *

 *   LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE,        *

 *   ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR  *

 *   OTHER DEALINGS IN THE SOFTWARE.                                        *

 *                                                                          *

 *   See LICENCES for more details.                                         *

 *                                                                          *

 *   SPDX-FileCopyrightText: Copyright 2005-2025                            *

 *       - Pierre-Henri WUILLEMIN(_at_LIP6)                                 *

 *       - Christophe GONZALES(_at_AMU)                                     *

 *   SPDX-License-Identifier: LGPL-3.0-or-later OR MIT                      *

 *                                                                          *

 *   Contact  : info_at_agrum_dot_org                                       *

 *   homepage : http://agrum.gitlab.io                                      *

 *   gitlab   : https://gitlab.com/agrumery/agrum                           *

 *                                                                          *

 ****************************************************************************/


// =========================================================================

#ifndef GUM_STRUCTURED_PLANNING_H

#define GUM_STRUCTURED_PLANNING_H

// =========================================================================

#include <thread>

// =========================================================================

// =========================================================================

// =========================================================================

#include <agrum/FMDP/planning/mddOperatorStrategy.h>

#include <agrum/FMDP/planning/treeOperatorStrategy.h>

#include <agrum/FMDP/SDyna/Strategies/IPlanningStrategy.h>


// =========================================================================


namespace gum {


  template < typename GUM_SCALAR >


  class StructuredPlaner: public IPlanningStrategy< GUM_SCALAR > {

    // ###################################################################

    // ###################################################################


    public:

    // ==========================================================================

    // ==========================================================================


    static StructuredPlaner< GUM_SCALAR >* spumddInstance(GUM_SCALAR discountFactor = 0.9,

                                                          GUM_SCALAR epsilon        = 0.00001,

                                                          bool       verbose        = true) {

      return new StructuredPlaner< GUM_SCALAR >(new MDDOperatorStrategy< GUM_SCALAR >(),

                                                discountFactor,

                                                epsilon,

                                                verbose);

    }


    // ==========================================================================

    // ==========================================================================


    static StructuredPlaner< GUM_SCALAR >* sviInstance(GUM_SCALAR discountFactor = 0.9,

                                                       GUM_SCALAR epsilon        = 0.00001,

                                                       bool       verbose        = true) {

      return new StructuredPlaner< GUM_SCALAR >(new TreeOperatorStrategy< GUM_SCALAR >(),

                                                discountFactor,

                                                epsilon,

                                                verbose);

    }


    // ###################################################################

    // ###################################################################


    protected:

    // ==========================================================================

    // ==========================================================================

    StructuredPlaner(IOperatorStrategy< GUM_SCALAR >* opi,

                     GUM_SCALAR                       discountFactor,

                     GUM_SCALAR                       epsilon,

                     bool                             verbose);


    // ==========================================================================

    // ==========================================================================


    public:

    virtual ~StructuredPlaner();


    // ###################################################################

    // ###################################################################


    public:

    // ==========================================================================

    // ==========================================================================

    INLINE const FMDP< GUM_SCALAR >* fmdp() { return fmdp_; }


    // ==========================================================================

    // ==========================================================================

    INLINE const MultiDimFunctionGraph< GUM_SCALAR >* vFunction() { return vFunction_; }


    // ==========================================================================

    // ==========================================================================

    virtual Size vFunctionSize() { return vFunction_ != nullptr ? vFunction_->realSize() : 0; }


    // ==========================================================================

    // ==========================================================================


    INLINE MultiDimFunctionGraph< ActionSet, SetTerminalNodePolicy >* optimalPolicy() {

      return optimalPolicy_;

    }


    // ==========================================================================

    // ==========================================================================


    virtual Size optimalPolicySize() {

      return optimalPolicy_ != nullptr ? optimalPolicy_->realSize() : 0;

    }


    // ==========================================================================

    // ==========================================================================

    std::string optimalPolicy2String();


    // ###################################################################

    // ###################################################################


    public:

    // ==========================================================================

    // ==========================================================================

    virtual void initialize(const FMDP< GUM_SCALAR >* fmdp);


    // ==========================================================================

    // ==========================================================================

    virtual void makePlanning(Idx nbStep = 1000000);


    // ###################################################################

    // ###################################################################


    protected:

    // ==========================================================================

    // ==========================================================================

    virtual void initVFunction_();


    // ==========================================================================

    // ==========================================================================

    virtual MultiDimFunctionGraph< GUM_SCALAR >* valueIteration_();


    // ==========================================================================

    // ==========================================================================

    virtual MultiDimFunctionGraph< GUM_SCALAR >*

        evalQaction_(const MultiDimFunctionGraph< GUM_SCALAR >*, Idx);


    // ==========================================================================

    // ==========================================================================

    virtual MultiDimFunctionGraph< GUM_SCALAR >*

        maximiseQactions_(std::vector< MultiDimFunctionGraph< GUM_SCALAR >* >&);


    // ==========================================================================

    // ==========================================================================

    virtual MultiDimFunctionGraph< GUM_SCALAR >*

        minimiseFunctions_(std::vector< MultiDimFunctionGraph< GUM_SCALAR >* >&);


    // ==========================================================================

    // ==========================================================================

    virtual MultiDimFunctionGraph< GUM_SCALAR >*

        addReward_(MultiDimFunctionGraph< GUM_SCALAR >* function, Idx actionId = 0);


    // ###################################################################

    // ###################################################################


    protected:

    // ==========================================================================

    // ==========================================================================

    virtual void evalPolicy_();


    // ==========================================================================

    // ==========================================================================

    MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy >*

        makeArgMax_(const MultiDimFunctionGraph< GUM_SCALAR >* Qaction, Idx actionId);


    private:

    // ==========================================================================

    // ==========================================================================

    NodeId _recurArgMaxCopy_(

        NodeId,

        Idx,

        const MultiDimFunctionGraph< GUM_SCALAR >*,

        MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy >*,

        HashTable< NodeId, NodeId >&);


    protected:

    // ==========================================================================

    // ==========================================================================

    virtual MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy >*

        argmaximiseQactions_(std::vector< MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >,

                                                                 SetTerminalNodePolicy >* >&);


    // ==========================================================================

    // ==========================================================================

    void extractOptimalPolicy_(

        const MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy >*

            optimalValueFunction);


    private:

    // ==========================================================================

    // ==========================================================================

    NodeId _recurExtractOptPol_(

        NodeId,

        const MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy >*,

        HashTable< NodeId, NodeId >&);


    // ==========================================================================

    // ==========================================================================

    void _transferActionIds_(const ArgMaxSet< GUM_SCALAR, Idx >&, ActionSet&);


    protected:

    // ==========================================================================

    // ==========================================================================

    const FMDP< GUM_SCALAR >* fmdp_;


    // ==========================================================================

    // ==========================================================================

    MultiDimFunctionGraph< GUM_SCALAR >* vFunction_;


    // ==========================================================================

    // ==========================================================================

    MultiDimFunctionGraph< ActionSet, SetTerminalNodePolicy >* optimalPolicy_;


    // ==========================================================================

    // ==========================================================================

    gum::VariableSet elVarSeq_;


    // ==========================================================================

    // ==========================================================================

    GUM_SCALAR discountFactor_;


    IOperatorStrategy< GUM_SCALAR >* operator_;


    // ==========================================================================

    // ==========================================================================

    bool verbose_;


    private:

    // ==========================================================================

    // ==========================================================================

    GUM_SCALAR _threshold_;

    bool       _firstTime_;

  };


} /* namespace gum */


#include <agrum/FMDP/planning/structuredPlaner_tpl.h>


#endif   // GUM_STRUCTURED_PLANNING_H

IPlanningStrategy.h
Headers of the Planning Strategy interface.

gum::ActionSet
A class to store the optimal actions.
Definition actionSet.h:105

gum::ArgMaxSet
Class to handle efficiently argMaxSet.
Definition argMaxSet.h:78

gum::FMDP
This class is used to implement factored decision process.
Definition fmdp.h:73

gum::HashTable< NodeId, NodeId >

gum::IOperatorStrategy
<agrum/FMDP/SDyna/IOperatorStrategy.h>
Definition IOperatorStrategy.h:71

gum::IPlanningStrategy
<agrum/FMDP/SDyna/IPlanningStrategy.h>
Definition IPlanningStrategy.h:72

gum::MDDOperatorStrategy
<agrum/FMDP/planning/mddOperatorStrategy.h>
Definition mddOperatorStrategy.h:71

gum::MultiDimFunctionGraph
Class implementingting a function graph.
Definition multiDimFunctionGraph.h:92

gum::SetTerminalNodePolicy
Implementation of a Terminal Node Policy that maps nodeid to a set of value.
Definition SetTerminalNodePolicy.h:69

gum::StructuredPlaner::evalPolicy_
virtual void evalPolicy_()
Perform the required tasks to extract an optimal policy.
Definition structuredPlaner_tpl.h:435

gum::StructuredPlaner::_recurExtractOptPol_
NodeId _recurExtractOptPol_(NodeId, const MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > *, HashTable< NodeId, NodeId > &)
Recursion part for the createArgMaxCopy.
Definition structuredPlaner_tpl.h:576

gum::StructuredPlaner::discountFactor_
GUM_SCALAR discountFactor_
Discount Factor used for infinite horizon planning.
Definition structuredPlaner.h:365

gum::StructuredPlaner::initialize
virtual void initialize(const FMDP< GUM_SCALAR > *fmdp)
Initializes data structure needed for making the planning.
Definition structuredPlaner_tpl.h:243

gum::StructuredPlaner::_recurArgMaxCopy_
NodeId _recurArgMaxCopy_(NodeId, Idx, const MultiDimFunctionGraph< GUM_SCALAR > *, MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > *, HashTable< NodeId, NodeId > &)
Recursion part for the createArgMaxCopy.
Definition structuredPlaner_tpl.h:499

gum::StructuredPlaner::_firstTime_
bool _firstTime_
Definition structuredPlaner.h:382

gum::StructuredPlaner::verbose_
bool verbose_
Boolean used to indcates whether or not iteration informations should be displayed on terminal.
Definition structuredPlaner.h:373

gum::StructuredPlaner::~StructuredPlaner
virtual ~StructuredPlaner()
Default destructor.
Definition structuredPlaner_tpl.h:102

gum::StructuredPlaner::makePlanning
virtual void makePlanning(Idx nbStep=1000000)
Performs a value iteration.
Definition structuredPlaner_tpl.h:263

gum::StructuredPlaner::sviInstance
static StructuredPlaner< GUM_SCALAR > * sviInstance(GUM_SCALAR discountFactor=0.9, GUM_SCALAR epsilon=0.00001, bool verbose=true)
Definition structuredPlaner.h:104

gum::StructuredPlaner::_transferActionIds_
void _transferActionIds_(const ArgMaxSet< GUM_SCALAR, Idx > &, ActionSet &)
Extract from an ArgMaxSet the associated ActionSet.
Definition structuredPlaner_tpl.h:604

gum::StructuredPlaner::vFunctionSize
virtual Size vFunctionSize()
Returns vFunction computed so far current size.
Definition structuredPlaner.h:158

gum::StructuredPlaner::minimiseFunctions_
virtual MultiDimFunctionGraph< GUM_SCALAR > * minimiseFunctions_(std::vector< MultiDimFunctionGraph< GUM_SCALAR > * > &)
Performs min_i F_i.
Definition structuredPlaner_tpl.h:389

gum::StructuredPlaner::argmaximiseQactions_
virtual MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > * argmaximiseQactions_(std::vector< MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > * > &)
Performs argmax_a Q(s,a).
Definition structuredPlaner_tpl.h:529

gum::StructuredPlaner::extractOptimalPolicy_
void extractOptimalPolicy_(const MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > *optimalValueFunction)
From V(s)* = argmax_a Q*(s,a), this function extract pi*(s) This function mainly consists in extracti...
Definition structuredPlaner_tpl.h:552

gum::StructuredPlaner::optimalPolicy_
MultiDimFunctionGraph< ActionSet, SetTerminalNodePolicy > * optimalPolicy_
The associated optimal policy.
Definition structuredPlaner.h:355

gum::StructuredPlaner::addReward_
virtual MultiDimFunctionGraph< GUM_SCALAR > * addReward_(MultiDimFunctionGraph< GUM_SCALAR > *function, Idx actionId=0)
Perform the R(s) + gamma . function.
Definition structuredPlaner_tpl.h:408

gum::StructuredPlaner::operator_
IOperatorStrategy< GUM_SCALAR > * operator_
Definition structuredPlaner.h:367

gum::StructuredPlaner::fmdp_
const FMDP< GUM_SCALAR > * fmdp_
The Factored Markov Decision Process describing our planning situation (NB : this one must have funct...
Definition structuredPlaner.h:340

gum::StructuredPlaner::optimalPolicy2String
std::string optimalPolicy2String()
Provide a better toDot for the optimal policy where the leaves have the action name instead of its id...
Definition structuredPlaner_tpl.h:124

gum::StructuredPlaner::optimalPolicySize
virtual Size optimalPolicySize()
Returns optimalPolicy computed so far current size.
Definition structuredPlaner.h:170

gum::StructuredPlaner::valueIteration_
virtual MultiDimFunctionGraph< GUM_SCALAR > * valueIteration_()
Performs a single step of value iteration.
Definition structuredPlaner_tpl.h:325

gum::StructuredPlaner::vFunction
INLINE const MultiDimFunctionGraph< GUM_SCALAR > * vFunction()
Returns a const ptr on the value function computed so far.
Definition structuredPlaner.h:153

gum::StructuredPlaner::_threshold_
GUM_SCALAR _threshold_
The threshold value Whenever | V^{n} - V^{n+1} | < threshold, we consider that V ~ V*.
Definition structuredPlaner.h:381

gum::StructuredPlaner::elVarSeq_
gum::VariableSet elVarSeq_
A Set to eleminate primed variables.
Definition structuredPlaner.h:360

gum::StructuredPlaner::StructuredPlaner
StructuredPlaner(IOperatorStrategy< GUM_SCALAR > *opi, GUM_SCALAR discountFactor, GUM_SCALAR epsilon, bool verbose)
Default constructor.
Definition structuredPlaner_tpl.h:86

gum::StructuredPlaner::initVFunction_
virtual void initVFunction_()
Performs a single step of value iteration.
Definition structuredPlaner_tpl.h:308

gum::StructuredPlaner::fmdp
INLINE const FMDP< GUM_SCALAR > * fmdp()
Returns a const ptr on the Factored Markov Decision Process on which we're planning.
Definition structuredPlaner.h:148

gum::StructuredPlaner::makeArgMax_
MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > * makeArgMax_(const MultiDimFunctionGraph< GUM_SCALAR > *Qaction, Idx actionId)
Creates a copy of given Qaction that can be exploit by a Argmax.
Definition structuredPlaner_tpl.h:474

gum::StructuredPlaner::spumddInstance
static StructuredPlaner< GUM_SCALAR > * spumddInstance(GUM_SCALAR discountFactor=0.9, GUM_SCALAR epsilon=0.00001, bool verbose=true)
Definition structuredPlaner.h:92

gum::StructuredPlaner::maximiseQactions_
virtual MultiDimFunctionGraph< GUM_SCALAR > * maximiseQactions_(std::vector< MultiDimFunctionGraph< GUM_SCALAR > * > &)
Performs max_a Q(s,a).
Definition structuredPlaner_tpl.h:371

gum::StructuredPlaner::vFunction_
MultiDimFunctionGraph< GUM_SCALAR > * vFunction_
The Value Function computed iteratively.
Definition structuredPlaner.h:345

gum::StructuredPlaner::optimalPolicy
INLINE MultiDimFunctionGraph< ActionSet, SetTerminalNodePolicy > * optimalPolicy()
Returns the best policy obtained so far.
Definition structuredPlaner.h:163

gum::StructuredPlaner::evalQaction_
virtual MultiDimFunctionGraph< GUM_SCALAR > * evalQaction_(const MultiDimFunctionGraph< GUM_SCALAR > *, Idx)
Performs the P(s'|s,a).V^{t-1}(s') part of the value itération.
Definition structuredPlaner_tpl.h:357

gum::TreeOperatorStrategy
<agrum/FMDP/planning/treeOperatorStrategy.h>
Definition treeOperatorStrategy.h:70

gum::Size
std::size_t Size
In aGrUM, hashed values are unsigned long int.
Definition types.h:74

gum::Idx
Size Idx
Type for indexes.
Definition types.h:79

gum::NodeId
Size NodeId
Type for node ids.
Definition graphElements.h:117

mddOperatorStrategy.h
Headers of the MDDOperatorStrategy planer class.

gum
gum is the global namespace for all aGrUM entities
Definition agrum.h:46

gum::VariableSet
Set< const DiscreteVariable * > VariableSet
Definition discreteVariable.h:187

structuredPlaner_tpl.h
Template implementation of FMDP/planning/StructuredPlaner.h classes.

treeOperatorStrategy.h
Headers of the TreeOperatorStrategy planer class.