12 жил өмнө · 081f39a359
--- a/GradientDescentOptimizer.cpp
+++ b/GradientDescentOptimizer.cpp
@@ -4,20 +4,18 @@
 
				 //								  Optimizer class.
			
 
				 //
			
 
				 //	Written by Matthias Wacker
			
 
				-//
			
 
				+//  edited by Johannes Ruehle, 2012-10-11
			
 
				 //////////////////////////////////////////////////////////////////////
			
 
				 
			
 
				-#include "optimization/GradientDescentOptimizer.h"
			
 
				+#include "GradientDescentOptimizer.h"
			
 
				 
			
 
				 using namespace optimization;
			
 
				 
			
 
				-//#include <iostream>
			
 
				-
			
 
				-
			
 
				 GradientDescentOptimizer::GradientDescentOptimizer(OptLogBase *loger)
			
 
				 	: SuperClass(loger)
			
 
				 {
			
 
				 	m_stepLength = -1;
			
 
				+    m_MinimalGradientMagnitude = 1e-7;
			
 
				 }
			
 
				 
			
 
				 
			
@@ -25,6 +23,7 @@ GradientDescentOptimizer::GradientDescentOptimizer( const GradientDescentOptimiz
 
				 {
			
 
				 	m_stepSize = opt.m_stepSize;
			
 
				 	m_stepLength = opt.m_stepLength;
			
 
				+    m_MinimalGradientMagnitude = opt.m_MinimalGradientMagnitude;
			
 
				 }
			
 
				 
			
 
				 GradientDescentOptimizer::~GradientDescentOptimizer()
			
@@ -44,6 +43,9 @@ void GradientDescentOptimizer::init()
 
				 	if (m_stepSize.rows() != static_cast<int>(m_numberOfParameters))
			
 
				 	{
			
 
				 		m_stepSize = m_scales; 
			
 
				+
			
 
				+        std::cout << "GradientDescentOptimizer::init(): warning: using optimizer scales as steps, since no steps were specified! Consider, if this is desired behavoir!" << std::endl;
			
 
				+
			
 
				 	}
			
 
				 	else
			
 
				 	{
			
@@ -108,19 +110,6 @@ int GradientDescentOptimizer::optimize()
 
				 	matrix_type stepSize = m_stepSize;
			
 
				 	double stepLength = m_stepLength;
			
 
				 	
			
 
				-
			
 
				-	/*
			
 
				-		compute start value and first gradient!
			
 
				-	*/
			
 
				-	m_currentCostFunctionValue = evaluateCostFunction(m_parameters);
			
 
				-
			
 
				-	m_gradient = (m_analyticalGradients == true && 
			
 
				-				(m_costFunction->hasAnalyticGradient() == true) ) ?
			
 
				-							getAnalyticalGradient(m_parameters) : 
			
 
				-							getNumericalGradient(m_parameters, m_stepSize);
			
 
				-
			
 
				-
			
 
				-
			
 
				 	/*
			
 
				 		check abort criteria for gradient
			
 
				 	*/	
			
@@ -160,6 +149,13 @@ int GradientDescentOptimizer::optimize()
 
				             {
			
 
				                 std::cout<< m_gradient[r][0] << " ";
			
 
				             }
			
 
				+            std::cout << std::endl;
			
 
				+
			
 
				+            std::cout << " current stepsize :\n ";
			
 
				+            for(int r = 0; r < static_cast<int>(m_numberOfParameters); r++)
			
 
				+            {
			
 
				+                std::cout<< stepSize[r][0] << " ";
			
 
				+            }
			
 
				             std::cout << std::endl;
			
 
				 
			
 
				 		}
			
@@ -196,7 +192,6 @@ int GradientDescentOptimizer::optimize()
 
				 		/*
			
 
				 			get gradient
			
 
				 		*/
			
 
				-		//m_gradient = (m_analyticalGradients == true) ? getAnalyticalGradient(m_parameters) : getNumericalGradient(m_parameters, stepSize);
			
 
				 		m_gradient = (m_analyticalGradients == true && 
			
 
				 				(m_costFunction->hasAnalyticGradient() == true) ) ?
			
 
				 							getAnalyticalGradient(m_parameters) : 
			
@@ -234,21 +229,31 @@ int GradientDescentOptimizer::optimize()
 
				 			return ERROR_COMPUTATION_UNSTABLE
			
 
				 			(this can happen if gradienTol is not active..)
			
 
				 			FIXME: WACKER think about a "usefull" limit
			
 
				+                ruehle: now adjustable via variable m_MinimalGradientMagnitude
			
 
				+            It considers a small gradient as having reached the local/global optimum, hello convex function...
			
 
				 		*/
			
 
				-		if (m_gradient.Norm(0) > 1.0e-50)
			
 
				+        double fGradientLength = m_gradient.Norm(0);
			
 
				+        if (fGradientLength > m_MinimalGradientMagnitude)
			
 
				 		{
			
 
				 			for(int k=0; k < static_cast<int>(m_numberOfParameters); ++k)
			
 
				 			{
			
 
				-				m_gradient[k][0] /= m_gradient.Norm(0);
			
 
				+                m_gradient[k][0] /= fGradientLength;
			
 
				+
			
 
				 			}
			
 
				 		}
			
 
				 		else
			
 
				 		{
			
 
				-			m_returnReason = ERROR_COMPUTATION_UNSTABLE;
			
 
				-			if(m_verbose == true)
			
 
				-			{
			
 
				-				std::cout << "# Gradient Descenct :: aborting because of ERROR_COMPUTATION_UNSTABLE " << std::endl;
			
 
				-			}
			
 
				+
			
 
				+            if(m_verbose == true)
			
 
				+            {
			
 
				+                std::cout << "Gradient Descenct :: aborting because gradient is too small L2 norm = " << fGradientLength
			
 
				+                          << " with set minimum gradient magnitude = " << m_MinimalGradientMagnitude
			
 
				+                          << ". Consider decreasing the limit with GradientDescentOptimizer::setMinimalGradientMagnitude()."
			
 
				+                          <<std::endl;
			
 
				+            }
			
 
				+
			
 
				+            /* set according return status and the last parameters and return */
			
 
				+            m_returnReason = SUCCESS_PARAMTOL;
			
 
				 
			
 
				 			abort =true;
			
 
				 			continue;
			
@@ -265,18 +270,32 @@ int GradientDescentOptimizer::optimize()
 
				 			*/
			
 
				 
			
 
				 			for(int k=0; k < static_cast<int>(m_numberOfParameters); ++k)
			
 
				-				stepSize[k][0] *= downScaleFactor;
			
 
				+                stepSize[k][0] *= downScaleFactor;
			
 
				 
			
 
				 			stepLength *= downScaleFactor;
			
 
				 			/*FIXME: WACKER: only as long
			
 
				 			as there is no steplength computation!*/
			
 
				+
			
 
				+            if(m_verbose == true)
			
 
				+            {
			
 
				+                std::cout << "# Gradient Descenct :: direction change detected ->perfoming scaledown" << std::endl;
			
 
				+            }
			
 
				 		}
			
 
				 		
			
 
				 				
			
 
				 		/*
			
 
				 			set next iteration step
			
 
				 		*/
			
 
				-		m_parameters = m_parameters + m_gradient * stepLength ; 
			
 
				+        //weight the stepSize for the next grid search by the gradient;
			
 
				+        //FIXME: using this thought destroys convergence...somehow..
			
 
				+        //     for(int k=0; k < static_cast<int>(m_numberOfParameters); ++k)
			
 
				+        //         stepSize[k][0] = stepSize[k][0] * m_gradient[k][0];
			
 
				+
			
 
				+        //old but silly version:
			
 
				+        // m_parameters = m_parameters + m_gradient * stepLength ;
			
 
				+        //new version where each gradient is weighted by the dimensions individual step size (not one fits them all, as before)
			
 
				+        for(int k=0; k < static_cast<int>(m_numberOfParameters); ++k)
			
 
				+            m_parameters[k][0] = m_parameters[k][0] - stepSize[k][0] * m_gradient[k][0];
			
 
				 
			
 
				 		/*
			
 
				 			Check if it is in bounds, paramTol, funcTol, NumIter, gradienttol, maxSeconds
			
@@ -407,3 +426,5 @@ int GradientDescentOptimizer::optimize()
 
				 	return m_returnReason;
			
 
				 
			
 
				 }
			
 
				+
			
 
				+//}
			
--- a/GradientDescentOptimizer.h
+++ b/GradientDescentOptimizer.h
@@ -3,7 +3,7 @@
 
				 //	GradientDescentOptimizer.h: interface of the optimizer GradientDescent.
			
 
				 //
			
 
				 //	Written by: Matthias Wacker
			
 
				-//
			
 
				+//  edited by Johannes Ruehle, 2012-10-11
			
 
				 //////////////////////////////////////////////////////////////////////
			
 
				 
			
 
				 #ifndef _GRADIENT_DESCENT_OPTIMIZER_
			
@@ -12,7 +12,6 @@
 
				 #include <cmath>
			
 
				 #include "optimization/DerivativeBasedOptimizer.h"
			
 
				 
			
 
				-
			
 
				 ///
			
 
				 ///	Class GradientDescentOptimizer
			
 
				 ///
			
@@ -93,7 +92,7 @@ class GradientDescentOptimizer : public DerivativeBasedOptimizer
 
				 
			
 
				 		inline void setStepLength(double stepLength){m_stepLength=stepLength;}
			
 
				 
			
 
				-
			
 
				+        inline void setMinimalGradientMagnitude(double minGradientMag){m_MinimalGradientMagnitude=minGradientMag;}
			
 
				 	private:
			
 
				 
			
 
				 		///
			
@@ -106,6 +105,11 @@ class GradientDescentOptimizer : public DerivativeBasedOptimizer
 
				 		///
			
 
				 		double m_stepLength;
			
 
				 
			
 
				+        ///
			
 
				+        ///	Minimal threshold for the L2-Norm of the gradient, so that the gradient descent
			
 
				+        /// is aborted.
			
 
				+        ///
			
 
				+        double m_MinimalGradientMagnitude;
			
 
				 		
			
 
				 };