diff --git a/math_demo.html b/math_demo.html
new file mode 100644
index 0000000..6742f1b
--- /dev/null
+++ b/math_demo.html
@@ -0,0 +1,719 @@
+<html>
+<head>
+<title>RecurrentJS Math Demo</title>
+
+<style>
+body {
+  font-family: Arial, "Helvetica Neue", Helvetica, sans-serif;
+  color: #333;
+  padding: 20px;
+}
+#argmax {
+  background-color: #DFD;
+}
+#ppl {
+  color: #090;
+  font-size: 20px;
+}
+#epoch {
+  color: #900;
+  font-size: 20px;
+}
+.apred {
+  padding: 2px;
+  margin: 5px;
+  overflow: hidden;
+  height: 20px;
+  font-size: 14px;
+}
+#prepro_status {
+  background-color: #FFD;
+  padding: 5px;
+}
+#status {
+  padding: 2px;
+  margin-top: 5px;
+}
+#controls {
+  margin: 5px;
+}
+.theslider {
+  width:90%;
+  display: inline-block;
+}
+.slider_value {
+  width: 9%;
+  display: inline-block;
+}
+#wrap {
+  width: 800px;
+  margin-right: auto;
+  margin-left: auto;
+  margin-bottom: 200px;
+}
+.abutton {
+  width: 120px;
+  height: 30px;
+  margin: 10px 10px 10px 0px;
+}
+.hh {
+  background-color: #EEE;
+  padding: 5px;
+  margin-top: 5px;
+  border-bottom: 1px solid #999;
+  margin-bottom: 2px;
+}
+#pplgraph {
+  float: right;
+}
+#intro {
+  text-align: justify;
+}
+</style>
+<link href="external/jquery-ui.min.css" rel="stylesheet">
+
+<script src="external/jquery-1.8.3.min.js"></script>
+<script src="external/jquery-ui.min.js"></script>
+
+<script src="src/recurrent.js"></script>
+<script src="src/vis.js"></script>
+<script src="node_modules/three/build/three.min.js"></script>
+<script src="node_modules/three/examples/js/controls/OrbitControls.js"></script>
+<script src="rnn-viewer.js"></script>
+</head>
+
+<body>
+<div id="container"></div>
+<a href="https://github.com/karpathy/recurrentjs"><img style="position: absolute; top: 0; right: 0; border: 0;" src="https://s3.amazonaws.com/github/ribbons/forkme_right_darkblue_121621.png" alt="Fork me on GitHub"></a>
+
+
+<div id="wrap">
+  <h1>Deep Recurrent Nets math demo</h1>
+  <div id="intro">
+    This demo shows usage of the <a href="https://github.com/karpathy/recurrentjs">recurrentjs library</a> that allows you to train deep Recurrent Neural Networks (RNN) and Long Short-Term Memory Networks (LSTM) in Javascript. But the core of the library is more general and allows you to set up arbitrary expression graphs that support fully automatic backpropagation.<br><br>
+
+    In this demo we take a dataset of random math characters as input and learn to memorize the math logic character by character. That is, the RNN/LSTM takes a character, its context from previous time steps (as mediated by the hidden layers) and predicts the next character in the sequence. Here is an example: <br><br>
+
+    <div style="text-align:center;"><img src="eg.png"></div>
+
+    In the example image above that depicts a deep RNN, every character has an associated "letter vector" that we will train with backpropagation. These letter vectors are combined through a (learnable) Matrix-vector multiply transformation into the first hidden layer representation (yellow), then into second hidden layer representation (purple), and finally into the output space (blue). The output space has dimensionality equal to the number of characters in the dataset and every dimension provides the probability of the next character in the sequence. The network is therefore trained to always predict the next character (using Softmax + cross-entropy loss on all letters). The quantity we track during training is called the <b>perplexity</b>, which measures how surprised the network is to see the next character in a sequence. For example, if perplexity is 4.0 then it's as if the network was guessing uniformly at random from 4 possible characters for next letter (i.e. lowest it can be is 1). At test time, the prediction is currently done iteratively character by character in a greedy fashion, but I might eventually implemented more sophisticated methods (e.g. beam search).<br><br>
+
+    The demo is populated with random math from javascript.<br><br>
+
+    For suggestions/bugs ping me at <a href="https://twitter.com/karpathy">@karpathy</a>.<br><br>
+
+  </div>
+  <div>
+    <div class="hh">Input sentences:</div>
+    <textarea style="width:100%; height:200px;" id="ti"></textarea>
+  </div>
+  <div id="prepro_status"></div>
+
+  <div class="hh">Controls/Options:</div>
+  <button id="learn" class="abutton">learn/restart</button>
+  <button id="resume" class="abutton">resume</button>
+  <button id="stop" class="abutton">pause</button>
+  <!-- <button id="gradcheck">gradcheck</button> -->
+  <textarea id="newnet" style="width:100%; height:200px;">
+
+// model parameters
+generator = 'rnn'; // can be 'rnn' or 'lstm'
+hidden_sizes = [20,20]; // list of sizes of hidden layers
+letter_size = 6; // size of letter embeddings
+
+// optimization
+regc = 0.000001; // L2 regularization strength
+learning_rate = 0.01; // learning rate
+clipval = 5.0; // clip gradients at this value
+  </textarea><br />
+  protip: if your perplexity is exploding with Infinity try lowering the initial learning rate
+  <br>
+  <div id="status">
+
+    <div>
+      <div class="hh">Training stats:</div>
+      <div class="aslider">
+        <div class="slider_header">Learning rate: you want to anneal this over time if you're training for longer time.</div>
+        <div class="theslider" id="lr_slider"></div>
+        <div class="slider_value" id="lr_text"></div>
+      </div>
+
+      <canvas id="pplgraph"></canvas>
+      <div id="ticktime"></div>
+      <div id="gradclip"></div>
+      <div id="epoch"></div>
+      <div id="ppl"></div>
+
+      <div style="clear:both;"></div>
+    </div>
+
+    <div class="hh">Model samples:</div>
+    <div id="controls">
+      <div class="aslider">
+        <div class="slider_header">Softmax sample temperature: lower setting will generate more likely predictions, but you'll see more of the same common words again and again. Higher setting will generate less frequent words but you might see more spelling errors.</div>
+        <div class="theslider" id="temperature_slider"></div>
+        <div class="slider_value" id="temperature_text"></div>
+      </div>
+    </div>
+    <div id="samples"></div>
+    <div class="hh">Greedy argmax prediction:</div>
+    <div id="argmax"></div>
+  </div>
+  <div id="io">
+    <div class="hh">I/O save/load model JSON</div>
+
+    <button id="savemodel" class="abutton">save model</button>
+    <button id="loadmodel" class="abutton">load model</button>
+    <div>
+      You can save or load models with JSON using the textarea below.
+    </div>
+    <textarea style="width:100%; height:200px;" id="tio"></textarea>
+
+    <br>
+    <div class="hh">Pretrained model:</div>
+    You can also choose to load an example pretrained model with the button below to see what the predictions look like in later stages. The pretrained model is an LSTM with one layer of 100 units, trained for ~10 hours. After clicking button below you should see the perplexity plummet to about 3.0, and see the predictions become better.<br>
+    <button id="loadpretrained" class="abutton">load pretrained</button>
+
+  </div>
+</div>
+<script type="text/javascript">
+  function shuffle(array) {
+    var currentIndex = array.length, temporaryValue, randomIndex;
+
+    // While there remain elements to shuffle...
+    while (0 !== currentIndex) {
+      // Pick a remaining element...
+      randomIndex = Math.floor(Math.random() * currentIndex);
+      currentIndex -= 1;
+
+      // And swap it with the current element.
+      temporaryValue = array[currentIndex];
+      array[currentIndex] = array[randomIndex];
+      array[randomIndex] = temporaryValue;
+    }
+
+    return array;
+  }
+
+  function build() {
+    var items = [];
+    for (var i = 0; i <= 10; i++) {
+      for (var j = 0; j <= 10; j++) {
+        items.push(i + '+' + j + '=' + (i + j));
+        if (i === j) continue;
+        items.push(j + '+' + i + '=' + (i + j));
+      }
+    }
+    items.random = function() {
+      return items[Math.floor(Math.random() * items.length)];
+    };
+    return shuffle(items);
+  }
+  var inputs = build();
+  document.getElementById('ti').innerHTML = inputs.join('\n');
+
+  // prediction params
+  var sample_softmax_temperature = 1.0; // how peaky model predictions should be
+  var max_chars_gen = 100; // max length of generated sentences
+
+  // various global var inits
+  var epoch_size = -1;
+  var input_size = -1;
+  var output_size = -1;
+  var letterToIndex = {};
+  var indexToLetter = {};
+  var vocab = [];
+  var data_sents = [];
+  var solver = new R.Solver(); // should be class because it needs memory for step caches
+  var pplGraph = new Rvis.Graph();
+
+  var model = {};
+
+  var initVocab = function(sents, count_threshold) {
+    // go over all characters and keep track of all unique ones seen
+    var txt = sents.join(''); // concat all
+
+    // count up all characters
+    var d = {};
+    for(var i=0,n=txt.length;i<n;i++) {
+      var txti = txt[i];
+      if(txti in d) { d[txti] += 1; }
+      else { d[txti] = 1; }
+    }
+
+    // filter by count threshold and create pointers
+    letterToIndex = {};
+    indexToLetter = {};
+    vocab = [];
+    // NOTE: start at one because we will have START and END tokens!
+    // that is, START token will be index 0 in model letter vectors
+    // and END token will be index 0 in the next character softmax
+    var q = 1;
+    for(ch in d) {
+      if(d.hasOwnProperty(ch)) {
+        if(d[ch] >= count_threshold) {
+          // add character to vocab
+          letterToIndex[ch] = q;
+          indexToLetter[q] = ch;
+          vocab.push(ch);
+          q++;
+        }
+      }
+    }
+
+    // globals written: indexToLetter, letterToIndex, vocab (list), and:
+    input_size = vocab.length + 1;
+    output_size = vocab.length + 1;
+    epoch_size = sents.length;
+    $("#prepro_status").text('found ' + vocab.length + ' distinct characters: ' + vocab.join(''));
+  };
+
+  var utilAddToModel = function(modelto, modelfrom) {
+    for(var k in modelfrom) {
+      if(modelfrom.hasOwnProperty(k)) {
+        // copy over the pointer but change the key to use the append
+        modelto[k] = modelfrom[k];
+      }
+    }
+  };
+
+  var initModel = function() {
+    // letter embedding vectors
+    var model = {};
+    model['Wil'] = new R.RandMat(input_size, letter_size , 0, 0.08);
+
+    if(generator === 'rnn') {
+      var rnn = R.initRNN(letter_size, hidden_sizes, output_size);
+      utilAddToModel(model, rnn);
+    } else {
+      var lstm = R.initLSTM(letter_size, hidden_sizes, output_size);
+      utilAddToModel(model, lstm);
+    }
+
+    return model;
+  };
+
+  var reinit_learning_rate_slider = function() {
+    // init learning rate slider for controlling the decay
+    // note that learning_rate is a global variable
+    $("#lr_slider").slider({
+      min: Math.log10(0.01) - 3.0,
+      max: Math.log10(0.01) + 0.05,
+      step: 0.05,
+      value: Math.log10(learning_rate),
+      slide: function( event, ui ) {
+        learning_rate = Math.pow(10, ui.value);
+        $("#lr_text").text(learning_rate.toFixed(5));
+      }
+    });
+    $("#lr_text").text(learning_rate.toFixed(5));
+  };
+
+  var reinit = function() {
+    // note: reinit writes global vars
+
+    // eval options to set some globals
+    eval($("#newnet").val());
+
+    reinit_learning_rate_slider();
+
+    solver = new R.Solver(); // reinit solver
+    pplGraph = new Rvis.Graph();
+
+    ppl_list = [];
+    tick_iter = 0;
+
+    // process the input, filter out blanks
+    var data_sents_raw = $('#ti').val().split('\n');
+    data_sents = [];
+    for(var i=0;i<data_sents_raw.length;i++) {
+      var sent = data_sents_raw[i].trim();
+      if(sent.length > 0) {
+        data_sents.push(sent);
+      }
+    }
+
+    initVocab(data_sents, 1); // takes count threshold for characters
+    model = initModel();
+  };
+
+  var saveModel = function() {
+    var out = {};
+    out['hidden_sizes'] = hidden_sizes;
+    out['generator'] = generator;
+    out['letter_size'] = letter_size;
+    var model_out = {};
+    for(var k in model) {
+      if(model.hasOwnProperty(k)) {
+        model_out[k] = model[k].toJSON();
+      }
+    }
+    out['model'] = model_out;
+    var solver_out = {};
+    solver_out['decay_rate'] = solver.decay_rate;
+    solver_out['smooth_eps'] = solver.smooth_eps;
+    var step_cache_out = {};
+    for(k in solver.step_cache) {
+      if(solver.step_cache.hasOwnProperty(k)) {
+        step_cache_out[k] = solver.step_cache[k].toJSON();
+      }
+    }
+    solver_out['step_cache'] = step_cache_out;
+    out['solver'] = solver_out;
+    out['letterToIndex'] = letterToIndex;
+    out['indexToLetter'] = indexToLetter;
+    out['vocab'] = vocab;
+    return JSON.stringify(out);
+  };
+
+  var hidden_sizes;
+  var generator;
+  var letter_size;
+  var learning_rate;
+
+  var loadModel = function(j) {
+    hidden_sizes = j.hidden_sizes;
+    generator = j.generator;
+    letter_size = j.letter_size;
+    model = {};
+    for(var k in j.model) {
+      if(j.model.hasOwnProperty(k)) {
+        var matjson = j.model[k];
+        model[k] = new R.Mat(1,1);
+        model[k].fromJSON(matjson);
+      }
+    }
+    solver = new R.Solver(); // have to reinit the solver since model changed
+    solver.decay_rate = j.solver.decay_rate;
+    solver.smooth_eps = j.solver.smooth_eps;
+    solver.step_cache = {};
+    for(k in j.solver.step_cache){
+      if(j.solver.step_cache.hasOwnProperty(k)){
+        matjson = j.solver.step_cache[k];
+        solver.step_cache[k] = new R.Mat(1,1);
+        solver.step_cache[k].fromJSON(matjson);
+      }
+    }
+    letterToIndex = j['letterToIndex'];
+    indexToLetter = j['indexToLetter'];
+    vocab = j['vocab'];
+
+    // reinit these
+    ppl_list = [];
+    tick_iter = 0;
+  };
+
+  var forwardIndex = function(G, model, ix, prev) {
+    var x = G.rowPluck(model['Wil'], ix);
+    // forward prop the sequence learner
+    if(generator === 'rnn') {
+      return R.forwardRNN(G, model, hidden_sizes, x, prev);
+    } else {
+      return R.forwardLSTM(G, model, hidden_sizes, x, prev);
+    }
+  };
+
+  var predictSentence = function(model, samplei, temperature) {
+    if(typeof samplei === 'undefined') { samplei = false; }
+    if(typeof temperature === 'undefined') { temperature = 1.0; }
+
+    var G = new R.Graph(false);
+    var s = '';
+    var prev = {};
+    while(true) {
+
+      // RNN tick
+      var ix = s.length === 0 ? 0 : letterToIndex[s[s.length-1]];
+      var lh = forwardIndex(G, model, ix, prev);
+      prev = lh;
+
+      // sample predicted letter
+      var logprobs = lh.o;
+      if(temperature !== 1.0 && samplei) {
+        // scale log probabilities by temperature and renormalize
+        // if temperature is high, logprobs will go towards zero
+        // and the softmax outputs will be more diffuse. if temperature is
+        // very low, the softmax outputs will be more peaky
+        for(var q=0,nq=logprobs.w.length;q<nq;q++) {
+          logprobs.w[q] /= temperature;
+        }
+      }
+
+      var probs = R.softmax(logprobs);
+      if(samplei) {
+        ix = R.samplei(probs.w);
+      } else {
+        ix = R.maxi(probs.w);
+      }
+
+      if(ix === 0) break; // END token predicted, break out
+      if(s.length > max_chars_gen) { break; } // something is wrong
+
+      var letter = indexToLetter[ix];
+      s += letter;
+    }
+    return s;
+  };
+
+  var costfun = function(model, sent) {
+    // takes a model and a sentence and
+    // calculates the loss. Also returns the Graph
+    // object which can be used to do backprop
+    var n = sent.length;
+    var G = new R.Graph();
+    var log2ppl = 0.0;
+    var cost = 0.0;
+    var prev = {};
+    for(var i=-1;i<n;i++) {
+      // start and end tokens are zeros
+      var ix_source = i === -1 ? 0 : letterToIndex[sent[i]]; // first step: start with START token
+      var ix_target = i === n-1 ? 0 : letterToIndex[sent[i+1]]; // last step: end with END token
+
+      var lh = forwardIndex(G, model, ix_source, prev);
+      prev = lh;
+
+      // set gradients into logprobabilities
+      var logprobs = lh.o; // interpret output as logprobs
+      var probs = R.softmax(logprobs); // compute the softmax probabilities
+
+      log2ppl += -Math.log2(probs.w[ix_target]); // accumulate base 2 log prob and do smoothing
+      cost += -Math.log(probs.w[ix_target]);
+
+      // write gradients into log probabilities
+      logprobs.dw = probs.w;
+      logprobs.dw[ix_target] -= 1
+    }
+    var ppl = Math.pow(2, log2ppl / (n - 1));
+    return {'G':G, 'ppl':ppl, 'cost':cost};
+  };
+
+  function median(values) {
+    values.sort( function(a,b) {return a - b;} );
+    var half = Math.floor(values.length/2);
+    if(values.length % 2) return values[half];
+    else return (values[half-1] + values[half]) / 2.0;
+  }
+
+  var ppl_list = [];
+  var tick_iter = 0;
+  var tick = function() {
+
+    // sample sentence fromd data
+    var sentix = R.randi(0,data_sents.length);
+    var sent = data_sents[sentix];
+
+    var t0 = +new Date();  // log start timestamp
+
+    // evaluate cost function on a sentence
+    var cost_struct = costfun(model, sent);
+
+    // use built up graph to compute backprop (set .dw fields in mats)
+    cost_struct.G.backward();
+
+    // perform param update
+    var solver_stats = solver.step(model, learning_rate, regc, clipval);
+    //$("#gradclip").text('grad clipped ratio: ' + solver_stats.ratio_clipped)
+
+    var t1 = +new Date();
+    var tick_time = t1 - t0;
+
+    ppl_list.push(cost_struct.ppl); // keep track of perplexity
+
+    // evaluate now and then
+    tick_iter += 1;
+    if(tick_iter % 50 === 0) {
+      // draw samples
+      $('#samples').html('');
+      for(var q=0;q<5;q++) {
+        var pred = predictSentence(model, true, sample_softmax_temperature);
+        var pred_div = '<div class="apred">'+pred+'</div>'
+        $('#samples').append(pred_div);
+      }
+    }
+    if(tick_iter % 10 === 0) {
+      // draw argmax prediction
+      $('#argmax').html('');
+      var pred = predictSentence(model, false);
+      var pred_div = '<div class="apred">'+pred+'</div>'
+      $('#argmax').append(pred_div);
+
+      // keep track of perplexity
+      $('#epoch').text('epoch: ' + (tick_iter/epoch_size).toFixed(2));
+      $('#ppl').text('perplexity: ' + cost_struct.ppl.toFixed(2));
+      $('#ticktime').text('forw/bwd time per example: ' + tick_time.toFixed(1) + 'ms');
+
+      if(tick_iter % 100 === 0) {
+        var median_ppl = median(ppl_list);
+        ppl_list = [];
+        pplGraph.add(tick_iter, median_ppl);
+        pplGraph.drawSelf(document.getElementById("pplgraph"));
+      }
+    }
+  };
+
+  var gradCheck = function() {
+    var model = initModel();
+    var sent = '^test sentence$';
+    var cost_struct = costfun(model, sent);
+    cost_struct.G.backward();
+    var eps = 0.000001;
+
+    for(var k in model) {
+      if(model.hasOwnProperty(k)) {
+        var m = model[k]; // mat ref
+        for(var i=0,n=m.w.length;i<n;i++) {
+
+          oldval = m.w[i];
+          m.w[i] = oldval + eps;
+          var c0 = costfun(model, sent);
+          m.w[i] = oldval - eps;
+          var c1 = costfun(model, sent);
+          m.w[i] = oldval;
+
+          var gnum = (c0.cost - c1.cost)/(2 * eps);
+          var ganal = m.dw[i];
+          var relerr = (gnum - ganal)/(Math.abs(gnum) + Math.abs(ganal));
+          if(relerr > 1e-1) {
+            console.log(k + ': numeric: ' + gnum + ', analytic: ' + ganal + ', err: ' + relerr);
+          }
+        }
+      }
+    }
+  };
+
+  var iid = null;
+  $(function() {
+
+    // attach button handlers
+    $('#learn').click(function(){
+      reinit();
+      if(iid !== null) { clearInterval(iid); }
+      iid = setInterval(tick, 0);
+      //iid = setTimeout(tick, 0);
+      //setTimeout(function() {
+        //console.log(saveModel());
+      //}, 1000);
+    });
+    $('#stop').click(function(){
+      if(iid !== null) { clearInterval(iid); }
+      iid = null;
+    });
+    $("#resume").click(function(){
+      if(iid === null) {
+        iid = setInterval(tick, 0);
+      }
+    });
+
+    $("#savemodel").click(saveModel);
+    $("#loadmodel").click(function(){
+      var j = JSON.parse($("#tio").val());
+      loadModel(j);
+    });
+
+    $("#loadpretrained").click(function(){
+      $.getJSON("lstm_100_model.json", function(data) {
+        pplGraph = new Rvis.Graph();
+        learning_rate = 0.0001;
+        reinit_learning_rate_slider();
+        loadModel(data);
+      });
+    });
+
+    $("#learn").click(); // simulate click on startup
+
+    //$('#gradcheck').click(gradCheck);
+
+    $("#temperature_slider").slider({
+      min: -1,
+      max: 1.05,
+      step: 0.05,
+      value: 0,
+      slide: function( event, ui ) {
+        sample_softmax_temperature = Math.pow(10, ui.value);
+        $("#temperature_text").text( sample_softmax_temperature.toFixed(2) );
+      }
+    });
+  });
+
+</script>
+
+<script>
+  function adaptMatrix(old) {
+    old.rows = old.n;
+    old.columns = old.d;
+    old.__defineGetter__('weights', function() {
+      return old.w;
+    });
+    old.__defineGetter__('recurrence', function() {
+      return old.dw;
+    });
+    return old;
+  }
+  setTimeout(function() {
+    var rnnViewer = new RNNViewer({
+      container: document.getElementById('container')
+    })
+        .addMatrix(adaptMatrix(model['Wil']));
+
+
+      for (var d = 0; d < hidden_sizes.length; d++) {
+        if (generator === 'lstm') {
+          rnnViewer
+              .addMatrix(adaptMatrix(model['Wix' + d]))
+              .addMatrix(adaptMatrix(model['Wih' + d]))
+              .addMatrix(adaptMatrix(model['bi' + d]))
+              .addMatrix(adaptMatrix(model['Wfx' + d]))
+              .addMatrix(adaptMatrix(model['Wfh' + d]))
+              .addMatrix(adaptMatrix(model['bf' + d]))
+              .addMatrix(adaptMatrix(model['Wox' + d]))
+              .addMatrix(adaptMatrix(model['Woh' + d]))
+              .addMatrix(adaptMatrix(model['bo' + d]))
+              // cell write params
+              .addMatrix(adaptMatrix(model['Wcx' + d]))
+              .addMatrix(adaptMatrix(model['Wch' + d]))
+              .addMatrix(adaptMatrix(model['bc' + d]));
+        } else {
+          rnnViewer
+              .addMatrix(adaptMatrix(model['Wxh' + d]))
+              .addMatrix(adaptMatrix(model['Whh' + d]))
+              .addMatrix(adaptMatrix(model['bhh' + d]));
+        }
+      }
+
+        rnnViewer
+        // decoder params
+        .addMatrix(adaptMatrix(model['Whd']))
+        .addMatrix(adaptMatrix(model['bd']))
+        .render();
+
+    setInterval(function() {
+      var coldColor = rnnViewer.coldColor,
+          hotColor = rnnViewer.hotColor;
+
+      rnnViewer.values.forEach(function(value) {
+        var v = value.percentValue,
+            r = (coldColor.r + hotColor.r) / v,
+            g = (coldColor.g + hotColor.g) / v,
+            b = (coldColor.b + hotColor.b) / v;
+
+        value.frontFace.color.setRGB(
+            r,
+            g,
+            b
+        );
+        value.rearFace.color.setRGB(
+            r,
+            g,
+            b
+        );
+        value.square.colorsNeedUpdate = true;
+        //value.mesh.geometry.elementsNeedUpdate = true;
+        value.mesh.geometry.colorsNeedUpdate = true;
+      });
+
+      rnnViewer.render();
+    }, 200);
+  }, 1000);
+</script>
+</body>
+</html>
diff --git a/rnn-viewer.js b/rnn-viewer.js
new file mode 100644
index 0000000..558511f
--- /dev/null
+++ b/rnn-viewer.js
@@ -0,0 +1,245 @@
+function RNNViewer(settings) {
+  Object.assign(this, RNNViewer.defaults, settings);
+
+  this.net = settings.net;
+  this.boundingGrid = null;
+  this.values = [];
+  this.grids = [];
+  this.matrices = [];
+  this.controls = null;
+  this.scene = null;
+  this.camera = null;
+  this.light = null;
+  this.renderer = null;
+  this.stats = null;
+
+  this.init();
+
+  if (this.net) {
+    var model = this.net.model;
+    var addMatrix = this.addMatrix.bind(this);
+
+    addMatrix(model.input);
+
+    model.hiddenLayers.forEach(function(hiddenLayer) {
+      for (var p in hiddenLayer) {
+        if (!hiddenLayer.hasOwnProperty(p)) continue;
+        addMatrix(hiddenLayer[p]);
+      }
+    });
+
+    addMatrix(model.outputConnector);
+    addMatrix(model.output);
+  }
+
+  this.animate();
+}
+
+RNNViewer.defaults = {
+  net: null,
+  container: null,
+  height: window.innerHeight,
+  width: window.innerWidth,
+  depth: 100,
+  hotColor: new THREE.Color(0xff55f9),
+  coldColor: new THREE.Color(0x050638),
+  squareWidth: 10,
+  squareHeight: 10,
+  devicePixelRatio: window.devicePixelRatio,
+  includeStats: false
+};
+
+RNNViewer.prototype = {
+  init: function() {
+    //Set up camera
+    var vFOVRadians = 2 * Math.atan(this.height / (2 * 1500)),
+      fov = vFOVRadians * 180 / Math.PI,
+      startPosition = this.startPosition = new THREE.Vector3(0, 0, 3000);
+
+    var camera = this.camera = new THREE.PerspectiveCamera(fov, this.width / this.height, 1, 30000);
+    camera.position.set(startPosition.x, startPosition.y, startPosition.z);
+
+    var controls = this.controls = new THREE.OrbitControls(camera);
+    controls.damping = 0.2;
+    controls.addEventListener('change', this.render.bind(this));
+
+    //Create scenes for webGL
+    var scene = this.scene = new THREE.Scene();
+    //Add a light source & create Canvas
+    var light = this.light = new THREE.DirectionalLight( 0xffffff );
+    light.position.set(0, 0, 1);
+    scene.add(light);
+
+    //set up webGL renderer
+    var renderer = this.renderer = new THREE.WebGLRenderer();
+    renderer.setPixelRatio(this.devicePixelRatio);
+    renderer.setSize(this.width, this.height);
+    this.container.appendChild(renderer.domElement);
+
+    //stats
+    if (this.includeStats) {
+      var stats = this.stats = new Stats();
+      stats.domElement.style.position = 'absolute';
+      stats.domElement.style.bottom = '10px';
+      stats.domElement.style.left = '10px';
+      this.container.appendChild(stats.domElement);
+    }
+
+    var boundingGrid = this.boundingGrid = new THREE.Object3D();
+    scene.add(boundingGrid);
+    return this;
+  },
+  update: function() {
+    var hotColor = this.settings.hotColor;
+    var coldColor = this.settings.coldColor;
+    return this;
+  },
+  render: function() {
+    var depth = this.depth;
+    this.grids.forEach(function(grid, i, grids) {
+      grid.position.z = (grids.length - i) * depth;
+    });
+
+    this.camera.lookAt(this.scene.position);
+    this.renderer.render(this.scene, this.camera);
+    if (this.stats) this.stats.update();
+    return this;
+  },
+  animate: function() {
+    this.controls.update();
+    window.requestAnimationFrame(this.animate.bind(this));
+    return this;
+  },
+  addMatrix: function (matrix) {
+    var grid = new THREE.Object3D(),
+      depth = this.depth,
+      rows = matrix.rows,
+      columns = matrix.columns,
+      xPixel = -(this.squareWidth * columns)/ 2,
+      yPixel = -(this.squareHeight * rows) / 2,
+      lowValue = 0,
+      highValue = 0,
+      index = 0;
+
+    //height
+    for (var row = 1; row <= rows; row++) {
+      xPixel = -(this.squareWidth * columns) / 2;
+      for (var column = 1; column <= columns; column++) {
+        var color = this.coldColor.clone();
+        var material = new THREE.MeshBasicMaterial({
+          color: color,
+          side: THREE.DoubleSide,
+          vertexColors: THREE.FaceColors
+        });
+        var square = new THREE.Geometry();
+        square.vertices.push(new THREE.Vector3(xPixel                   , yPixel                     , 0));
+        square.vertices.push(new THREE.Vector3(xPixel                   , yPixel + this.squareHeight , 0));
+        square.vertices.push(new THREE.Vector3(xPixel + this.squareWidth, yPixel + this.squareHeight , 0));
+        square.vertices.push(new THREE.Vector3(xPixel + this.squareWidth, yPixel                     , 0));
+
+        square.faces.push(new THREE.Face3(0, 1, 2));
+        square.faces.push(new THREE.Face3(0, 3, 2));
+        var mesh = new THREE.Mesh(square, material);
+        grid.add(mesh);
+
+        this.values.push({
+          color: color,
+          row: row - 1,
+          column: column - 1,
+          matrixIndex: this.grids.length,
+          square: square,
+          mesh: mesh,
+          frontFace: mesh.geometry.faces[0],
+          rearFace: mesh.geometry.faces[1],
+          index: index,
+          matrix: matrix,
+          get value() {
+            var value = this.matrix.weights[this.index];
+            if (value > highValue) {
+              highValue = value;
+            }
+            if (value < lowValue) {
+              lowValue = value;
+            }
+            return value || 0;
+          },
+          get percentValue() {
+            var value = this.value;
+            var normalizedHigh = highValue - lowValue;
+            var normalizedValue = value - lowValue;
+            return (normalizedHigh - normalizedValue) / normalizedHigh;
+          }
+        });
+
+        xPixel += this.squareWidth;
+        index++;
+      }
+      yPixel += this.squareHeight;
+    }
+
+    this.grids.push(grid);
+    this.matrices.push(matrix);
+    this.boundingGrid.add(grid);
+
+    return this;
+  },
+  viewTop: function() {
+    this.controls.reset();
+
+    var vFOVRadians = 2 * Math.atan(this.height / ( 2 * 35000 )),
+      fov = vFOVRadians * 180 / Math.PI;
+
+    this.camera.fov = fov;
+    this.controls.rotateUp(90 * Math.PI / 180);
+    this.camera.position.z = this.startPosition.z * 23;
+    this.camera.position.y = this.startPosition.z * 55;
+    this.camera.far = 1000000;
+    this.camera.updateProjectionMatrix();
+    return this.render();
+  },
+  viewSide: function() {
+    this.controls.reset();
+
+    var vFOVRadians = 2 * Math.atan(this.height / ( 2 * 35000 )),
+      fov = vFOVRadians * 180 / Math.PI;
+
+    this.camera.fov = fov;
+    this.camera.position.z = this.startPosition.z * 58;
+    this.camera.far = 1000000;
+    this.camera.updateProjectionMatrix();
+    return this.render();
+  },
+  viewDefault: function() {
+    this.controls.reset();
+
+    this.camera.fov = 30;
+    this.camera.updateProjectionMatrix();
+    return this.render();
+  },
+  setSize: function(width, height) {
+    this.width = width;
+    this.height = height;
+    this.renderer.setSize(this.width, this.height);
+    return this.render();
+  },
+  setValue: function(v) {
+    var v = Math.random() * 2,
+      r = (coldColor.r + hotColor.r) / v,
+      g = (coldColor.g + hotColor.g) / v,
+      b = (coldColor.b + hotColor.b) / v;
+
+    value.frontFace.color.setRGB(
+      r,
+      g,
+      b
+    );
+    value.rearFace.color.setRGB(
+      r,
+      g,
+      b
+    );
+    value.square.colorsNeedUpdate = true;
+    //value.mesh.geometry.elementsNeedUpdate = true;
+    value.mesh.geometry.colorsNeedUpdate = true;
+  }
+};
\ No newline at end of file
diff --git a/src/recurrent.js b/src/recurrent.js
index 4c20a39..221d4af 100644
--- a/src/recurrent.js
+++ b/src/recurrent.js
@@ -1,6 +1,6 @@
 var R = {}; // the Recurrent library
 
-(function(global) {
+(function (global) {
   "use strict";
 
   // Utility fun
@@ -18,341 +18,417 @@ var R = {}; // the Recurrent library
   // Random numbers utils
   var return_v = false;
   var v_val = 0.0;
-  var gaussRandom = function() {
-    if(return_v) { 
+  var gaussRandom = function () {
+    if (return_v) {
       return_v = false;
-      return v_val; 
+      return v_val;
     }
-    var u = 2*Math.random()-1;
-    var v = 2*Math.random()-1;
-    var r = u*u + v*v;
-    if(r == 0 || r > 1) return gaussRandom();
-    var c = Math.sqrt(-2*Math.log(r)/r);
-    v_val = v*c; // cache this
+    var u = 2 * Math.random() - 1;
+    var v = 2 * Math.random() - 1;
+    var r = u * u + v * v;
+    if (r == 0 || r > 1) return gaussRandom();
+    var c = Math.sqrt(-2 * Math.log(r) / r);
+    v_val = v * c; // cache this
     return_v = true;
-    return u*c;
-  }
-  var randf = function(a, b) { return Math.random()*(b-a)+a; }
-  var randi = function(a, b) { return Math.floor(Math.random()*(b-a)+a); }
-  var randn = function(mu, std){ return mu+gaussRandom()*std; }
+    return u * c;
+  };
+  var randf = function (a, b) {
+    return Math.random() * (b - a) + a;
+  };
+  var randi = function (a, b) {
+    return Math.floor(Math.random() * (b - a) + a);
+  };
+  var randn = function (mu, std) {
+    return mu + gaussRandom() * std;
+  };
 
   // helper function returns array of zeros of length n
   // and uses typed arrays if available
-  var zeros = function(n) {
-    if(typeof(n)==='undefined' || isNaN(n)) { return []; }
-    if(typeof ArrayBuffer === 'undefined') {
+  var zeros = function (n) {
+    if (typeof(n) === 'undefined' || isNaN(n)) {
+      return [];
+    }
+    if (typeof ArrayBuffer === 'undefined') {
       // lacking browser support
       var arr = new Array(n);
-      for(var i=0;i<n;i++) { arr[i] = 0; }
+      for (var i = 0; i < n; i++) {
+        arr[i] = 0;
+      }
       return arr;
     } else {
       return new Float64Array(n);
     }
-  }
+  };
 
   // Mat holds a matrix
-  var Mat = function(n,d) {
+  var Mat = function (n, d) {
     // n is number of rows d is number of columns
     this.n = n;
     this.d = d;
     this.w = zeros(n * d);
     this.dw = zeros(n * d);
-  }
+  };
+
   Mat.prototype = {
-    get: function(row, col) { 
+    get: function (row, col) {
       // slow but careful accessor function
       // we want row-major order
       var ix = (this.d * row) + col;
       assert(ix >= 0 && ix < this.w.length);
       return this.w[ix];
     },
-    set: function(row, col, v) {
+    set: function (row, col, v) {
       // slow but careful accessor function
       var ix = (this.d * row) + col;
       assert(ix >= 0 && ix < this.w.length);
-      this.w[ix] = v; 
+      this.w[ix] = v;
     },
-    toJSON: function() {
+    toJSON: function () {
       var json = {};
       json['n'] = this.n;
       json['d'] = this.d;
       json['w'] = this.w;
       return json;
     },
-    fromJSON: function(json) {
+    fromJSON: function (json) {
       this.n = json.n;
       this.d = json.d;
       this.w = zeros(this.n * this.d);
       this.dw = zeros(this.n * this.d);
-      for(var i=0,n=this.n * this.d;i<n;i++) {
+      for (var i = 0, n = this.n * this.d; i < n; i++) {
         this.w[i] = json.w[i]; // copy over weights
       }
     }
-  }
+  };
 
   // return Mat but filled with random numbers from gaussian
-  var RandMat = function(n,d,mu,std) {
+  var RandMat = function (n, d, mu, std) {
     var m = new Mat(n, d);
     //fillRandn(m,mu,std);
-    fillRand(m,-std,std); // kind of :P
+    fillRand(m, -std, std); // kind of :P
     return m;
-  }
+  };
 
   // Mat utils
   // fill matrix with random gaussian numbers
-  var fillRandn = function(m, mu, std) { for(var i=0,n=m.w.length;i<n;i++) { m.w[i] = randn(mu, std); } }
-  var fillRand = function(m, lo, hi) { for(var i=0,n=m.w.length;i<n;i++) { m.w[i] = randf(lo, hi); } }
+  var fillRandn = function (m, mu, std) {
+    for (var i = 0, n = m.w.length; i < n; i++) {
+      m.w[i] = randn(mu, std);
+    }
+  };
+  var fillRand = function (m, lo, hi) {
+    for (var i = 0, n = m.w.length; i < n; i++) {
+      m.w[i] = randf(lo, hi);
+    }
+  };
 
   // Transformer definitions
-  var Graph = function(needs_backprop) {
-    if(typeof needs_backprop === 'undefined') { needs_backprop = true; }
+  var Graph = function (needs_backprop) {
+    if (typeof needs_backprop === 'undefined') {
+      needs_backprop = true;
+    }
     this.needs_backprop = needs_backprop;
 
     // this will store a list of functions that perform backprop,
     // in their forward pass order. So in backprop we will go
     // backwards and evoke each one
     this.backprop = [];
-  }
+  };
   Graph.prototype = {
-    backward: function() {
-      for(var i=this.backprop.length-1;i>=0;i--) {
+    backward: function () {
+      for (var i = this.backprop.length - 1; i >= 0; i--) {
         this.backprop[i](); // tick!
       }
     },
-    rowPluck: function(m, ix) {
+    rowPluck: function (m, ix) {
       // pluck a row of m with index ix and return it as col vector
       assert(ix >= 0 && ix < m.n);
       var d = m.d;
       var out = new Mat(d, 1);
-      for(var i=0,n=d;i<n;i++){ out.w[i] = m.w[d * ix + i]; } // copy over the data
 
-      if(this.needs_backprop) {
-        var backward = function() {
-          for(var i=0,n=d;i<n;i++){ m.dw[d * ix + i] += out.dw[i]; }
+      dwListenAll(out, m);
+
+      for (var i = 0, n = d; i < n; i++) {
+        out.w[i] = m.w[d * ix + i];
+      } // copy over the data
+
+      if (this.needs_backprop) {
+        var backward = function () {
+          //rowPluch
+          for (var i = 0, n = d; i < n; i++) {
+            m.dw[d * ix + i] += out.dw[i];
+          }
         }
         this.backprop.push(backward);
       }
       return out;
     },
-    tanh: function(m) {
+    tanh: function (m) {
       // tanh nonlinearity
       var out = new Mat(m.n, m.d);
       var n = m.w.length;
-      for(var i=0;i<n;i++) { 
+      for (var i = 0; i < n; i++) {
         out.w[i] = Math.tanh(m.w[i]);
       }
 
-      if(this.needs_backprop) {
-        var backward = function() {
-          for(var i=0;i<n;i++) {
+      dwListenAll(out, m);
+
+      if (this.needs_backprop) {
+        var backward = function () {
+          //tanh
+          for (var i = 0; i < n; i++) {
             // grad for z = tanh(x) is (1 - z^2)
             var mwi = out.w[i];
             m.dw[i] += (1.0 - mwi * mwi) * out.dw[i];
           }
-        }
+        };
         this.backprop.push(backward);
       }
       return out;
     },
-    sigmoid: function(m) {
+    sigmoid: function (m) {
       // sigmoid nonlinearity
       var out = new Mat(m.n, m.d);
       var n = m.w.length;
-      for(var i=0;i<n;i++) { 
+      for (var i = 0; i < n; i++) {
         out.w[i] = sig(m.w[i]);
       }
 
-      if(this.needs_backprop) {
-        var backward = function() {
-          for(var i=0;i<n;i++) {
+      dwListenAll(out, m);
+
+      if (this.needs_backprop) {
+        var backward = function () {
+          //sigmoid
+          for (var i = 0; i < n; i++) {
             // grad for z = tanh(x) is (1 - z^2)
             var mwi = out.w[i];
             m.dw[i] += mwi * (1.0 - mwi) * out.dw[i];
           }
-        }
+        };
         this.backprop.push(backward);
       }
       return out;
     },
-    relu: function(m) {
+    relu: function (m) {
       var out = new Mat(m.n, m.d);
       var n = m.w.length;
-      for(var i=0;i<n;i++) { 
+      for (var i = 0; i < n; i++) {
         out.w[i] = Math.max(0, m.w[i]); // relu
       }
-      if(this.needs_backprop) {
-        var backward = function() {
-          for(var i=0;i<n;i++) {
+      dwListenAll(out, m);
+      if (this.needs_backprop) {
+        var backward = function () {
+          //relu
+          for (var i = 0; i < n; i++) {
             m.dw[i] += m.w[i] > 0 ? out.dw[i] : 0.0;
           }
-        }
+        };
         this.backprop.push(backward);
       }
       return out;
     },
-    mul: function(m1, m2) {
+    mul: function (m1, m2) {
       // multiply matrices m1 * m2
       assert(m1.d === m2.n, 'matmul dimensions misaligned');
 
       var n = m1.n;
       var d = m2.d;
-      var out = new Mat(n,d);
-      for(var i=0;i<m1.n;i++) { // loop over rows of m1
-        for(var j=0;j<m2.d;j++) { // loop over cols of m2
+      var out = new Mat(n, d);
+      dwListenAll(out, m1, m2);
+      for (var i = 0; i < m1.n; i++) { // loop over rows of m1
+        for (var j = 0; j < m2.d; j++) { // loop over cols of m2
           var dot = 0.0;
-          for(var k=0;k<m1.d;k++) { // dot product loop
-            dot += m1.w[m1.d*i+k] * m2.w[m2.d*k+j];
+          for (var k = 0; k < m1.d; k++) { // dot product loop
+            dot += m1.w[m1.d * i + k] * m2.w[m2.d * k + j];
           }
-          out.w[d*i+j] = dot;
+          out.w[d * i + j] = dot;
         }
       }
 
-      if(this.needs_backprop) {
-        var backward = function() {
-          for(var i=0;i<m1.n;i++) { // loop over rows of m1
-            for(var j=0;j<m2.d;j++) { // loop over cols of m2
-              for(var k=0;k<m1.d;k++) { // dot product loop
-                var b = out.dw[d*i+j];
-                m1.dw[m1.d*i+k] += m2.w[m2.d*k+j] * b;
-                m2.dw[m2.d*k+j] += m1.w[m1.d*i+k] * b;
+      if (this.needs_backprop) {
+        var backward = function () {
+          //mul
+          for (var i = 0; i < m1.n; i++) { // loop over rows of m1
+            for (var j = 0; j < m2.d; j++) { // loop over cols of m2
+              for (var k = 0; k < m1.d; k++) { // dot product loop
+                var b = out.dw[d * i + j];
+                m1.dw[m1.d * i + k] += m2.w[m2.d * k + j] * b;
+                m2.dw[m2.d * k + j] += m1.w[m1.d * i + k] * b;
               }
             }
           }
-        }
+        };
         this.backprop.push(backward);
       }
       return out;
     },
-    add: function(m1, m2) {
+    add: function (m1, m2) {
       assert(m1.w.length === m2.w.length);
 
       var out = new Mat(m1.n, m1.d);
-      for(var i=0,n=m1.w.length;i<n;i++) {
+
+      dwListenAll(out, m1, m2);
+      for (var i = 0, n = m1.w.length; i < n; i++) {
         out.w[i] = m1.w[i] + m2.w[i];
       }
-      if(this.needs_backprop) {
-        var backward = function() {
-          for(var i=0,n=m1.w.length;i<n;i++) {
+      if (this.needs_backprop) {
+        var backward = function () {
+          //add
+          for (var i = 0, n = m1.w.length; i < n; i++) {
             m1.dw[i] += out.dw[i];
             m2.dw[i] += out.dw[i];
           }
-        }
+        };
         this.backprop.push(backward);
       }
       return out;
     },
-    eltmul: function(m1, m2) {
+    eltmul: function (m1, m2) {
       assert(m1.w.length === m2.w.length);
 
-      var out = new Mat(m1.n, m1.d);
-      for(var i=0,n=m1.w.length;i<n;i++) {
+      var out = new Mat(m1.n, m1.d)
+      dwListenAll(out, m1, m2);
+      for (var i = 0, n = m1.w.length; i < n; i++) {
         out.w[i] = m1.w[i] * m2.w[i];
       }
-      if(this.needs_backprop) {
-        var backward = function() {
-          for(var i=0,n=m1.w.length;i<n;i++) {
+      if (this.needs_backprop) {
+        var backward = function () {
+          //eltmul
+          for (var i = 0, n = m1.w.length; i < n; i++) {
             m1.dw[i] += m2.w[i] * out.dw[i];
             m2.dw[i] += m1.w[i] * out.dw[i];
           }
-        }
+        };
         this.backprop.push(backward);
       }
       return out;
-    },
+    }
+  };
+
+  function dwListenAll() {
+    return;
+    for (var i = 0; i < arguments.length; i++) {
+      dwListen(arguments[i]);
+    }
   }
 
-  var softmax = function(m) {
-      var out = new Mat(m.n, m.d); // probability volume
-      var maxval = -999999;
-      for(var i=0,n=m.w.length;i<n;i++) { if(m.w[i] > maxval) maxval = m.w[i]; }
+  function dwListen(m) {
+    if (m._dw) return;
+    m._dw = m.dw;
+    m.dw = {
+      length: m._dw.length
+    };
+    m._dw.forEach(function (value, i) {
+      (function (i) {
+        m.dw.__defineSetter__(i.toString(), function (value) {
+          m._dw[i] = value;
+        });
+        m.dw.__defineGetter__(i.toString(), function () {
+          return m._dw[i];
+        });
+      })(i)
+    });
+  }
 
-      var s = 0.0;
-      for(var i=0,n=m.w.length;i<n;i++) { 
-        out.w[i] = Math.exp(m.w[i] - maxval);
-        s += out.w[i];
-      }
-      for(var i=0,n=m.w.length;i<n;i++) { out.w[i] /= s; }
+  var softmax = function (m) {
+    var out = new Mat(m.n, m.d); // probability volume
+    dwListenAll(out, m);
+    var maxval = -999999;
+    for (var i = 0, n = m.w.length; i < n; i++) {
+      if (m.w[i] > maxval) maxval = m.w[i];
+    }
 
-      // no backward pass here needed
-      // since we will use the computed probabilities outside
-      // to set gradients directly on m
-      return out;
+    var s = 0.0;
+    for (var i = 0, n = m.w.length; i < n; i++) {
+      out.w[i] = Math.exp(m.w[i] - maxval);
+      s += out.w[i];
     }
+    for (var i = 0, n = m.w.length; i < n; i++) {
+      out.w[i] /= s;
+    }
+
+    // no backward pass here needed
+    // since we will use the computed probabilities outside
+    // to set gradients directly on m
+    return out;
+  };
 
-  var Solver = function() {
+  var Solver = function () {
     this.decay_rate = 0.999;
     this.smooth_eps = 1e-8;
     this.step_cache = {};
-  }
+  };
   Solver.prototype = {
-    step: function(model, step_size, regc, clipval) {
+    step: function (model, step_size, regc, clipval) {
       // perform parameter update
       var solver_stats = {};
       var num_clipped = 0;
       var num_tot = 0;
-      for(var k in model) {
-        if(model.hasOwnProperty(k)) {
+      for (var k in model) {
+        if (model.hasOwnProperty(k)) {
           var m = model[k]; // mat ref
-          if(!(k in this.step_cache)) { this.step_cache[k] = new Mat(m.n, m.d); }
+          if (!(k in this.step_cache)) {
+            this.step_cache[k] = new Mat(m.n, m.d);
+          }
           var s = this.step_cache[k];
-          for(var i=0,n=m.w.length;i<n;i++) {
+          for (var i = 0, n = m.w.length; i < n; i++) {
 
             // rmsprop adaptive learning rate
             var mdwi = m.dw[i];
             s.w[i] = s.w[i] * this.decay_rate + (1.0 - this.decay_rate) * mdwi * mdwi;
 
             // gradient clip
-            if(mdwi > clipval) {
+            if (mdwi > clipval) {
               mdwi = clipval;
               num_clipped++;
             }
-            if(mdwi < -clipval) {
+            if (mdwi < -clipval) {
               mdwi = -clipval;
               num_clipped++;
             }
             num_tot++;
 
             // update (and regularize)
-            m.w[i] += - step_size * mdwi / Math.sqrt(s.w[i] + this.smooth_eps) - regc * m.w[i];
+            m.w[i] += -step_size * mdwi / Math.sqrt(s.w[i] + this.smooth_eps) - regc * m.w[i];
             m.dw[i] = 0; // reset gradients for next iteration
           }
         }
       }
-      solver_stats['ratio_clipped'] = num_clipped*1.0/num_tot;
+      solver_stats['ratio_clipped'] = num_clipped * 1.0 / num_tot;
       return solver_stats;
     }
-  }
+  };
 
-  var initLSTM = function(input_size, hidden_sizes, output_size) {
+  var initLSTM = function (input_size, hidden_sizes, output_size) {
     // hidden size should be a list
 
     var model = {};
-    for(var d=0;d<hidden_sizes.length;d++) { // loop over depths
+    for (var d = 0; d < hidden_sizes.length; d++) { // loop over depths
       var prev_size = d === 0 ? input_size : hidden_sizes[d - 1];
       var hidden_size = hidden_sizes[d];
 
       // gates parameters
-      model['Wix'+d] = new RandMat(hidden_size, prev_size , 0, 0.08);  
-      model['Wih'+d] = new RandMat(hidden_size, hidden_size , 0, 0.08);
-      model['bi'+d] = new Mat(hidden_size, 1);
-      model['Wfx'+d] = new RandMat(hidden_size, prev_size , 0, 0.08);  
-      model['Wfh'+d] = new RandMat(hidden_size, hidden_size , 0, 0.08);
-      model['bf'+d] = new Mat(hidden_size, 1);
-      model['Wox'+d] = new RandMat(hidden_size, prev_size , 0, 0.08);  
-      model['Woh'+d] = new RandMat(hidden_size, hidden_size , 0, 0.08);
-      model['bo'+d] = new Mat(hidden_size, 1);
+      model['Wix' + d] = new RandMat(hidden_size, prev_size, 0, 0.08);
+      model['Wih' + d] = new RandMat(hidden_size, hidden_size, 0, 0.08);
+      model['bi' + d] = new Mat(hidden_size, 1);
+      model['Wfx' + d] = new RandMat(hidden_size, prev_size, 0, 0.08);
+      model['Wfh' + d] = new RandMat(hidden_size, hidden_size, 0, 0.08);
+      model['bf' + d] = new Mat(hidden_size, 1);
+      model['Wox' + d] = new RandMat(hidden_size, prev_size, 0, 0.08);
+      model['Woh' + d] = new RandMat(hidden_size, hidden_size, 0, 0.08);
+      model['bo' + d] = new Mat(hidden_size, 1);
       // cell write params
-      model['Wcx'+d] = new RandMat(hidden_size, prev_size , 0, 0.08);  
-      model['Wch'+d] = new RandMat(hidden_size, hidden_size , 0, 0.08);
-      model['bc'+d] = new Mat(hidden_size, 1);
+      model['Wcx' + d] = new RandMat(hidden_size, prev_size, 0, 0.08);
+      model['Wch' + d] = new RandMat(hidden_size, hidden_size, 0, 0.08);
+      model['bc' + d] = new Mat(hidden_size, 1);
     }
     // decoder params
     model['Whd'] = new RandMat(output_size, hidden_size, 0, 0.08);
     model['bd'] = new Mat(output_size, 1);
     return model;
-  }
+  };
 
-  var forwardLSTM = function(G, model, hidden_sizes, x, prev) {
+  var forwardLSTM = function (G, model, hidden_sizes, x, prev) {
     // forward prop for a single tick of LSTM
     // G is graph to append ops to
     // model contains LSTM parameters
@@ -360,45 +436,47 @@ var R = {}; // the Recurrent library
     // prev is a struct containing hidden and cell
     // from previous iteration
 
-    if(typeof prev.h === 'undefined') {
-      var hidden_prevs = [];
-      var cell_prevs = [];
-      for(var d=0;d<hidden_sizes.length;d++) {
-        hidden_prevs.push(new R.Mat(hidden_sizes[d],1)); 
-        cell_prevs.push(new R.Mat(hidden_sizes[d],1)); 
+    var hidden_prevs;
+    var cell_prevs;
+    if (typeof prev.h === 'undefined') {
+      hidden_prevs = [];
+      cell_prevs = [];
+      for (var d = 0; d < hidden_sizes.length; d++) {
+        hidden_prevs.push(new R.Mat(hidden_sizes[d], 1));
+        cell_prevs.push(new R.Mat(hidden_sizes[d], 1));
       }
     } else {
-      var hidden_prevs = prev.h;
-      var cell_prevs = prev.c;
+      hidden_prevs = prev.h;
+      cell_prevs = prev.c;
     }
 
     var hidden = [];
     var cell = [];
-    for(var d=0;d<hidden_sizes.length;d++) {
+    for (var d = 0; d < hidden_sizes.length; d++) {
 
-      var input_vector = d === 0 ? x : hidden[d-1];
+      var input_vector = d === 0 ? x : hidden[d - 1];
       var hidden_prev = hidden_prevs[d];
       var cell_prev = cell_prevs[d];
 
       // input gate
-      var h0 = G.mul(model['Wix'+d], input_vector);
-      var h1 = G.mul(model['Wih'+d], hidden_prev);
-      var input_gate = G.sigmoid(G.add(G.add(h0,h1),model['bi'+d]));
+      var h0 = G.mul(model['Wix' + d], input_vector);
+      var h1 = G.mul(model['Wih' + d], hidden_prev);
+      var input_gate = G.sigmoid(G.add(G.add(h0, h1), model['bi' + d]));
 
       // forget gate
-      var h2 = G.mul(model['Wfx'+d], input_vector);
-      var h3 = G.mul(model['Wfh'+d], hidden_prev);
-      var forget_gate = G.sigmoid(G.add(G.add(h2, h3),model['bf'+d]));
+      var h2 = G.mul(model['Wfx' + d], input_vector);
+      var h3 = G.mul(model['Wfh' + d], hidden_prev);
+      var forget_gate = G.sigmoid(G.add(G.add(h2, h3), model['bf' + d]));
 
       // output gate
-      var h4 = G.mul(model['Wox'+d], input_vector);
-      var h5 = G.mul(model['Woh'+d], hidden_prev);
-      var output_gate = G.sigmoid(G.add(G.add(h4, h5),model['bo'+d]));
+      var h4 = G.mul(model['Wox' + d], input_vector);
+      var h5 = G.mul(model['Woh' + d], hidden_prev);
+      var output_gate = G.sigmoid(G.add(G.add(h4, h5), model['bo' + d]));
 
       // write operation on cells
-      var h6 = G.mul(model['Wcx'+d], input_vector);
-      var h7 = G.mul(model['Wch'+d], hidden_prev);
-      var cell_write = G.tanh(G.add(G.add(h6, h7),model['bc'+d]));
+      var h6 = G.mul(model['Wcx' + d], input_vector);
+      var h7 = G.mul(model['Wch' + d], hidden_prev);
+      var cell_write = G.tanh(G.add(G.add(h6, h7), model['bc' + d]));
 
       // compute new cell activation
       var retain_cell = G.eltmul(forget_gate, cell_prev); // what do we keep from cell
@@ -413,97 +491,98 @@ var R = {}; // the Recurrent library
     }
 
     // one decoder to outputs at end
-    var output = G.add(G.mul(model['Whd'], hidden[hidden.length - 1]),model['bd']);
+    var output = G.add(G.mul(model['Whd'], hidden[hidden.length - 1]), model['bd']);
 
     // return cell memory, hidden representation and output
-    return {'h':hidden, 'c':cell, 'o' : output};
-  }
+    return {'h': hidden, 'c': cell, 'o': output};
+  };
 
-  var initRNN = function(input_size, hidden_sizes, output_size) {
+  var initRNN = function (input_size, hidden_sizes, output_size) {
     // hidden size should be a list
 
     var model = {};
-    for(var d=0;d<hidden_sizes.length;d++) { // loop over depths
+    for (var d = 0; d < hidden_sizes.length; d++) { // loop over depths
       var prev_size = d === 0 ? input_size : hidden_sizes[d - 1];
       var hidden_size = hidden_sizes[d];
-      model['Wxh'+d] = new R.RandMat(hidden_size, prev_size , 0, 0.08);
-      model['Whh'+d] = new R.RandMat(hidden_size, hidden_size, 0, 0.08);
-      model['bhh'+d] = new R.Mat(hidden_size, 1);
+      model['Wxh' + d] = new R.RandMat(hidden_size, prev_size, 0, 0.08);
+      model['Whh' + d] = new R.RandMat(hidden_size, hidden_size, 0, 0.08);
+      model['bhh' + d] = new R.Mat(hidden_size, 1);
     }
     // decoder params
     model['Whd'] = new RandMat(output_size, hidden_size, 0, 0.08);
     model['bd'] = new Mat(output_size, 1);
     return model;
-  }
+  };
 
-   var forwardRNN = function(G, model, hidden_sizes, x, prev) {
+  var forwardRNN = function (G, model, hidden_sizes, x, prev) {
     // forward prop for a single tick of RNN
     // G is graph to append ops to
     // model contains RNN parameters
     // x is 1D column vector with observation
     // prev is a struct containing hidden activations from last step
-
-    if(typeof prev.h === 'undefined') {
-      var hidden_prevs = [];
-      for(var d=0;d<hidden_sizes.length;d++) {
-        hidden_prevs.push(new R.Mat(hidden_sizes[d],1)); 
+    var hidden_prevs;
+    if (typeof prev.h === 'undefined') {
+      hidden_prevs = [];
+      for (var d = 0; d < hidden_sizes.length; d++) {
+        hidden_prevs.push(new R.Mat(hidden_sizes[d], 1));
       }
     } else {
-      var hidden_prevs = prev.h;
+      hidden_prevs = prev.h;
     }
 
     var hidden = [];
-    for(var d=0;d<hidden_sizes.length;d++) {
+    for (var d = 0; d < hidden_sizes.length; d++) {
 
-      var input_vector = d === 0 ? x : hidden[d-1];
+      var input_vector = d === 0 ? x : hidden[d - 1];
       var hidden_prev = hidden_prevs[d];
 
-      var h0 = G.mul(model['Wxh'+d], input_vector);
-      var h1 = G.mul(model['Whh'+d], hidden_prev);
-      var hidden_d = G.relu(G.add(G.add(h0, h1), model['bhh'+d]));
+      var h0 = G.mul(model['Wxh' + d], input_vector);
+      var h1 = G.mul(model['Whh' + d], hidden_prev);
+      var hidden_d = G.relu(G.add(G.add(h0, h1), model['bhh' + d]));
 
       hidden.push(hidden_d);
     }
 
     // one decoder to outputs at end
-    var output = G.add(G.mul(model['Whd'], hidden[hidden.length - 1]),model['bd']);
+    var output = G.add(G.mul(model['Whd'], hidden[hidden.length - 1]), model['bd']);
 
     // return cell memory, hidden representation and output
-    return {'h':hidden, 'o' : output};
-  }
+    return {'h': hidden, 'o': output};
+  };
 
-  var sig = function(x) {
+  var sig = function (x) {
     // helper function for computing sigmoid
-    return 1.0/(1+Math.exp(-x));
-  }
+    return 1.0 / (1 + Math.exp(-x));
+  };
 
-  var maxi = function(w) {
+  var maxi = function (w) {
     // argmax of array w
     var maxv = w[0];
     var maxix = 0;
-    for(var i=1,n=w.length;i<n;i++) {
+    for (var i = 1, n = w.length; i < n; i++) {
       var v = w[i];
-      if(v > maxv) {
+      if (v > maxv) {
         maxix = i;
         maxv = v;
       }
     }
     return maxix;
-  }
+  };
 
-  var samplei = function(w) {
+  var samplei = function (w) {
     // sample argmax from w, assuming w are 
     // probabilities that sum to one
-    var r = randf(0,1);
+    var r = randf(0, 1);
     var x = 0.0;
     var i = 0;
-    while(true) {
+    while (true) {
       x += w[i];
-      if(x > r) { return i; }
+      if (x > r) {
+        return i;
+      }
       i++;
     }
-    return w.length - 1; // pretty sure we should never get here?
-  }
+  };
 
   // various utils
   global.maxi = maxi;
@@ -524,5 +603,5 @@ var R = {}; // the Recurrent library
   // optimization
   global.Solver = Solver;
   global.Graph = Graph;
-  
+
 })(R);
diff --git a/xor_demo.html b/xor_demo.html
new file mode 100644
index 0000000..e2245d0
--- /dev/null
+++ b/xor_demo.html
@@ -0,0 +1,704 @@
+<html>
+<head>
+<title>RecurrentJS Math Demo</title>
+
+<style>
+body {
+  font-family: Arial, "Helvetica Neue", Helvetica, sans-serif;
+  color: #333;
+  padding: 20px;
+}
+#argmax {
+  background-color: #DFD;
+}
+#ppl {
+  color: #090;
+  font-size: 20px;
+}
+#epoch {
+  color: #900;
+  font-size: 20px;
+}
+.apred {
+  padding: 2px;
+  margin: 5px;
+  overflow: hidden;
+  height: 20px;
+  font-size: 14px;
+}
+#prepro_status {
+  background-color: #FFD;
+  padding: 5px;
+}
+#status {
+  padding: 2px;
+  margin-top: 5px;
+}
+#controls {
+  margin: 5px;
+}
+.theslider {
+  width:90%;
+  display: inline-block;
+}
+.slider_value {
+  width: 9%;
+  display: inline-block;
+}
+#wrap {
+  width: 800px;
+  margin-right: auto;
+  margin-left: auto;
+  margin-bottom: 200px;
+}
+.abutton {
+  width: 120px;
+  height: 30px;
+  margin: 10px 10px 10px 0px;
+}
+.hh {
+  background-color: #EEE;
+  padding: 5px;
+  margin-top: 5px;
+  border-bottom: 1px solid #999;
+  margin-bottom: 2px;
+}
+#pplgraph {
+  float: right;
+}
+#intro {
+  text-align: justify;
+}
+</style>
+<link href="external/jquery-ui.min.css" rel="stylesheet">
+
+<script src="external/jquery-1.8.3.min.js"></script>
+<script src="external/jquery-ui.min.js"></script>
+
+<script src="src/recurrent.js"></script>
+<script src="src/vis.js"></script>
+<script src="node_modules/three/build/three.min.js"></script>
+<script src="node_modules/three/examples/js/controls/OrbitControls.js"></script>
+<script src="rnn-viewer.js"></script>
+</head>
+
+<body>
+<div id="container"></div>
+<a href="https://github.com/karpathy/recurrentjs"><img style="position: absolute; top: 0; right: 0; border: 0;" src="https://s3.amazonaws.com/github/ribbons/forkme_right_darkblue_121621.png" alt="Fork me on GitHub"></a>
+
+
+<div id="wrap">
+  <h1>Deep Recurrent Nets math demo</h1>
+  <div id="intro">
+    This demo shows usage of the <a href="https://github.com/karpathy/recurrentjs">recurrentjs library</a> that allows you to train deep Recurrent Neural Networks (RNN) and Long Short-Term Memory Networks (LSTM) in Javascript. But the core of the library is more general and allows you to set up arbitrary expression graphs that support fully automatic backpropagation.<br><br>
+
+    In this demo we take a dataset of random math characters as input and learn to memorize the math logic character by character. That is, the RNN/LSTM takes a character, its context from previous time steps (as mediated by the hidden layers) and predicts the next character in the sequence. Here is an example: <br><br>
+
+    <div style="text-align:center;"><img src="eg.png"></div>
+
+    In the example image above that depicts a deep RNN, every character has an associated "letter vector" that we will train with backpropagation. These letter vectors are combined through a (learnable) Matrix-vector multiply transformation into the first hidden layer representation (yellow), then into second hidden layer representation (purple), and finally into the output space (blue). The output space has dimensionality equal to the number of characters in the dataset and every dimension provides the probability of the next character in the sequence. The network is therefore trained to always predict the next character (using Softmax + cross-entropy loss on all letters). The quantity we track during training is called the <b>perplexity</b>, which measures how surprised the network is to see the next character in a sequence. For example, if perplexity is 4.0 then it's as if the network was guessing uniformly at random from 4 possible characters for next letter (i.e. lowest it can be is 1). At test time, the prediction is currently done iteratively character by character in a greedy fashion, but I might eventually implemented more sophisticated methods (e.g. beam search).<br><br>
+
+    The demo is populated with random math from javascript.<br><br>
+
+    For suggestions/bugs ping me at <a href="https://twitter.com/karpathy">@karpathy</a>.<br><br>
+
+  </div>
+  <div>
+    <div class="hh">Input sentences:</div>
+    <textarea style="width:100%; height:200px;" id="ti">000
+011
+100
+110</textarea>
+  </div>
+  <div id="prepro_status"></div>
+
+  <div class="hh">Controls/Options:</div>
+  <button id="learn" class="abutton">learn/restart</button>
+  <button id="resume" class="abutton">resume</button>
+  <button id="stop" class="abutton">pause</button>
+  <!-- <button id="gradcheck">gradcheck</button> -->
+  <textarea id="newnet" style="width:100%; height:200px;">
+
+// model parameters
+generator = 'rnn'; // can be 'rnn' or 'lstm'
+hidden_sizes = [3]; // list of sizes of hidden layers
+letter_size = 3; // size of letter embeddings
+
+// optimization
+regc = 0.000001; // L2 regularization strength
+learning_rate = 0.01; // learning rate
+clipval = 5.0; // clip gradients at this value
+  </textarea><br />
+  protip: if your perplexity is exploding with Infinity try lowering the initial learning rate
+  <br>
+  <div id="status">
+
+    <div>
+      <div class="hh">Training stats:</div>
+      <div class="aslider">
+        <div class="slider_header">Learning rate: you want to anneal this over time if you're training for longer time.</div>
+        <div class="theslider" id="lr_slider"></div>
+        <div class="slider_value" id="lr_text"></div>
+      </div>
+
+      <canvas id="pplgraph"></canvas>
+      <div id="ticktime"></div>
+      <div id="gradclip"></div>
+      <div id="epoch"></div>
+      <div id="ppl"></div>
+
+      <div style="clear:both;"></div>
+    </div>
+
+    <div class="hh">Model samples:</div>
+    <div id="controls">
+      <div class="aslider">
+        <div class="slider_header">Softmax sample temperature: lower setting will generate more likely predictions, but you'll see more of the same common words again and again. Higher setting will generate less frequent words but you might see more spelling errors.</div>
+        <div class="theslider" id="temperature_slider"></div>
+        <div class="slider_value" id="temperature_text"></div>
+      </div>
+    </div>
+    <div id="samples"></div>
+    <div class="hh">Greedy argmax prediction:</div>
+    <div id="argmax"></div>
+  </div>
+  <div id="io">
+    <div class="hh">I/O save/load model JSON</div>
+
+    <button id="savemodel" class="abutton">save model</button>
+    <button id="loadmodel" class="abutton">load model</button>
+    <div>
+      You can save or load models with JSON using the textarea below.
+    </div>
+    <textarea style="width:100%; height:200px;" id="tio"></textarea>
+
+    <br>
+    <div class="hh">Pretrained model:</div>
+    You can also choose to load an example pretrained model with the button below to see what the predictions look like in later stages. The pretrained model is an LSTM with one layer of 100 units, trained for ~10 hours. After clicking button below you should see the perplexity plummet to about 3.0, and see the predictions become better.<br>
+    <button id="loadpretrained" class="abutton">load pretrained</button>
+
+  </div>
+</div>
+<script type="text/javascript">
+  function shuffle(array) {
+    var currentIndex = array.length, temporaryValue, randomIndex;
+
+    // While there remain elements to shuffle...
+    while (0 !== currentIndex) {
+      // Pick a remaining element...
+      randomIndex = Math.floor(Math.random() * currentIndex);
+      currentIndex -= 1;
+
+      // And swap it with the current element.
+      temporaryValue = array[currentIndex];
+      array[currentIndex] = array[randomIndex];
+      array[randomIndex] = temporaryValue;
+    }
+
+    return array;
+  }
+
+  // prediction params
+  var sample_softmax_temperature = 1.0; // how peaky model predictions should be
+  var max_chars_gen = 100; // max length of generated sentences
+
+  // various global var inits
+  var epoch_size = -1;
+  var input_size = -1;
+  var output_size = -1;
+  var letterToIndex = {};
+  var indexToLetter = {};
+  var vocab = [];
+  var data_sents = [];
+  var solver = new R.Solver(); // should be class because it needs memory for step caches
+  var pplGraph = new Rvis.Graph();
+
+  var model = {};
+
+  var initVocab = function(sents, count_threshold) {
+    // go over all characters and keep track of all unique ones seen
+    var txt = sents.join(''); // concat all
+
+    // count up all characters
+    var d = {};
+    for(var i=0,n=txt.length;i<n;i++) {
+      var txti = txt[i];
+      if(txti in d) { d[txti] += 1; }
+      else { d[txti] = 1; }
+    }
+
+    // filter by count threshold and create pointers
+    letterToIndex = {};
+    indexToLetter = {};
+    vocab = [];
+    // NOTE: start at one because we will have START and END tokens!
+    // that is, START token will be index 0 in model letter vectors
+    // and END token will be index 0 in the next character softmax
+    var q = 1;
+    for(ch in d) {
+      if(d.hasOwnProperty(ch)) {
+        if(d[ch] >= count_threshold) {
+          // add character to vocab
+          letterToIndex[ch] = q;
+          indexToLetter[q] = ch;
+          vocab.push(ch);
+          q++;
+        }
+      }
+    }
+
+    // globals written: indexToLetter, letterToIndex, vocab (list), and:
+    input_size = vocab.length + 1;
+    output_size = vocab.length + 1;
+    epoch_size = sents.length;
+    $("#prepro_status").text('found ' + vocab.length + ' distinct characters: ' + vocab.join(''));
+  };
+
+  var utilAddToModel = function(modelto, modelfrom) {
+    for(var k in modelfrom) {
+      if(modelfrom.hasOwnProperty(k)) {
+        // copy over the pointer but change the key to use the append
+        modelto[k] = modelfrom[k];
+      }
+    }
+  };
+
+  var initModel = function() {
+    // letter embedding vectors
+    var model = {};
+    model['Wil'] = new R.RandMat(input_size, letter_size , 0, 0.08);
+
+    if(generator === 'rnn') {
+      var rnn = R.initRNN(letter_size, hidden_sizes, output_size);
+      utilAddToModel(model, rnn);
+    } else {
+      var lstm = R.initLSTM(letter_size, hidden_sizes, output_size);
+      utilAddToModel(model, lstm);
+    }
+
+    return model;
+  };
+
+  var reinit_learning_rate_slider = function() {
+    // init learning rate slider for controlling the decay
+    // note that learning_rate is a global variable
+    $("#lr_slider").slider({
+      min: Math.log10(0.01) - 3.0,
+      max: Math.log10(0.01) + 0.05,
+      step: 0.05,
+      value: Math.log10(learning_rate),
+      slide: function( event, ui ) {
+        learning_rate = Math.pow(10, ui.value);
+        $("#lr_text").text(learning_rate.toFixed(5));
+      }
+    });
+    $("#lr_text").text(learning_rate.toFixed(5));
+  };
+
+  var reinit = function() {
+    // note: reinit writes global vars
+
+    // eval options to set some globals
+    eval($("#newnet").val());
+
+    reinit_learning_rate_slider();
+
+    solver = new R.Solver(); // reinit solver
+    pplGraph = new Rvis.Graph();
+
+    ppl_list = [];
+    tick_iter = 0;
+
+    // process the input, filter out blanks
+    var data_sents_raw = $('#ti').val().split('\n');
+    data_sents = [];
+    for(var i=0;i<data_sents_raw.length;i++) {
+      var sent = data_sents_raw[i].trim();
+      if(sent.length > 0) {
+        data_sents.push(sent);
+      }
+    }
+
+    initVocab(data_sents, 1); // takes count threshold for characters
+    model = initModel();
+  };
+
+  var saveModel = function() {
+    var out = {};
+    out['hidden_sizes'] = hidden_sizes;
+    out['generator'] = generator;
+    out['letter_size'] = letter_size;
+    var model_out = {};
+    for(var k in model) {
+      if(model.hasOwnProperty(k)) {
+        model_out[k] = model[k].toJSON();
+      }
+    }
+    out['model'] = model_out;
+    var solver_out = {};
+    solver_out['decay_rate'] = solver.decay_rate;
+    solver_out['smooth_eps'] = solver.smooth_eps;
+    var step_cache_out = {};
+    for(k in solver.step_cache) {
+      if(solver.step_cache.hasOwnProperty(k)) {
+        step_cache_out[k] = solver.step_cache[k].toJSON();
+      }
+    }
+    solver_out['step_cache'] = step_cache_out;
+    out['solver'] = solver_out;
+    out['letterToIndex'] = letterToIndex;
+    out['indexToLetter'] = indexToLetter;
+    out['vocab'] = vocab;
+    return JSON.stringify(out);
+  };
+
+  var hidden_sizes;
+  var generator;
+  var letter_size;
+  var learning_rate;
+
+  var loadModel = function(j) {
+    hidden_sizes = j.hidden_sizes;
+    generator = j.generator;
+    letter_size = j.letter_size;
+    model = {};
+    for(var k in j.model) {
+      if(j.model.hasOwnProperty(k)) {
+        var matjson = j.model[k];
+        model[k] = new R.Mat(1,1);
+        model[k].fromJSON(matjson);
+      }
+    }
+    solver = new R.Solver(); // have to reinit the solver since model changed
+    solver.decay_rate = j.solver.decay_rate;
+    solver.smooth_eps = j.solver.smooth_eps;
+    solver.step_cache = {};
+    for(k in j.solver.step_cache){
+      if(j.solver.step_cache.hasOwnProperty(k)){
+        matjson = j.solver.step_cache[k];
+        solver.step_cache[k] = new R.Mat(1,1);
+        solver.step_cache[k].fromJSON(matjson);
+      }
+    }
+    letterToIndex = j['letterToIndex'];
+    indexToLetter = j['indexToLetter'];
+    vocab = j['vocab'];
+
+    // reinit these
+    ppl_list = [];
+    tick_iter = 0;
+  };
+
+  var forwardIndex = function(G, model, ix, prev) {
+    var x = G.rowPluck(model['Wil'], ix);
+    // forward prop the sequence learner
+    if(generator === 'rnn') {
+      return R.forwardRNN(G, model, hidden_sizes, x, prev);
+    } else {
+      return R.forwardLSTM(G, model, hidden_sizes, x, prev);
+    }
+  };
+
+  var predictSentence = function(model, samplei, temperature) {
+    if(typeof samplei === 'undefined') { samplei = false; }
+    if(typeof temperature === 'undefined') { temperature = 1.0; }
+
+    var G = new R.Graph(false);
+    var s = '';
+    var prev = {};
+    while(true) {
+
+      // RNN tick
+      var ix = s.length === 0 ? 0 : letterToIndex[s[s.length-1]];
+      var lh = forwardIndex(G, model, ix, prev);
+      prev = lh;
+
+      // sample predicted letter
+      var logprobs = lh.o;
+      if(temperature !== 1.0 && samplei) {
+        // scale log probabilities by temperature and renormalize
+        // if temperature is high, logprobs will go towards zero
+        // and the softmax outputs will be more diffuse. if temperature is
+        // very low, the softmax outputs will be more peaky
+        for(var q=0,nq=logprobs.w.length;q<nq;q++) {
+          logprobs.w[q] /= temperature;
+        }
+      }
+
+      var probs = R.softmax(logprobs);
+      if(samplei) {
+        ix = R.samplei(probs.w);
+      } else {
+        ix = R.maxi(probs.w);
+      }
+
+      if(ix === 0) break; // END token predicted, break out
+      if(s.length > max_chars_gen) { break; } // something is wrong
+
+      var letter = indexToLetter[ix];
+      s += letter;
+    }
+    return s;
+  };
+
+  var costfun = function(model, sent) {
+    // takes a model and a sentence and
+    // calculates the loss. Also returns the Graph
+    // object which can be used to do backprop
+    var n = sent.length;
+    var G = new R.Graph();
+    var log2ppl = 0.0;
+    var cost = 0.0;
+    var prev = {};
+    for(var i=-1;i<n;i++) {
+      // start and end tokens are zeros
+      var ix_source = i === -1 ? 0 : letterToIndex[sent[i]]; // first step: start with START token
+      var ix_target = i === n-1 ? 0 : letterToIndex[sent[i+1]]; // last step: end with END token
+
+      var lh = forwardIndex(G, model, ix_source, prev);
+      prev = lh;
+
+      // set gradients into logprobabilities
+      var logprobs = lh.o; // interpret output as logprobs
+      var probs = R.softmax(logprobs); // compute the softmax probabilities
+
+      log2ppl += -Math.log2(probs.w[ix_target]); // accumulate base 2 log prob and do smoothing
+      cost += -Math.log(probs.w[ix_target]);
+
+      // write gradients into log probabilities
+      logprobs.dw = probs.w;
+      logprobs.dw[ix_target] -= 1
+    }
+    var ppl = Math.pow(2, log2ppl / (n - 1));
+    return {'G':G, 'ppl':ppl, 'cost':cost};
+  };
+
+  function median(values) {
+    values.sort( function(a,b) {return a - b;} );
+    var half = Math.floor(values.length/2);
+    if(values.length % 2) return values[half];
+    else return (values[half-1] + values[half]) / 2.0;
+  }
+
+  var ppl_list = [];
+  var tick_iter = 0;
+  var tick = function() {
+
+    // sample sentence fromd data
+    var sentix = R.randi(0,data_sents.length);
+    var sent = data_sents[sentix];
+
+    var t0 = +new Date();  // log start timestamp
+
+    // evaluate cost function on a sentence
+    var cost_struct = costfun(model, sent);
+
+    // use built up graph to compute backprop (set .dw fields in mats)
+    cost_struct.G.backward();
+
+    // perform param update
+    var solver_stats = solver.step(model, learning_rate, regc, clipval);
+    //$("#gradclip").text('grad clipped ratio: ' + solver_stats.ratio_clipped)
+
+    var t1 = +new Date();
+    var tick_time = t1 - t0;
+
+    ppl_list.push(cost_struct.ppl); // keep track of perplexity
+
+    // evaluate now and then
+    tick_iter += 1;
+    if(tick_iter % 50 === 0) {
+      // draw samples
+      $('#samples').html('');
+      for(var q=0;q<5;q++) {
+        var pred = predictSentence(model, true, sample_softmax_temperature);
+        var pred_div = '<div class="apred">'+pred+'</div>'
+        $('#samples').append(pred_div);
+      }
+    }
+    if(tick_iter % 10 === 0) {
+      // draw argmax prediction
+      $('#argmax').html('');
+      var pred = predictSentence(model, false);
+      var pred_div = '<div class="apred">'+pred+'</div>'
+      $('#argmax').append(pred_div);
+
+      // keep track of perplexity
+      $('#epoch').text('epoch: ' + (tick_iter/epoch_size).toFixed(2));
+      $('#ppl').text('perplexity: ' + cost_struct.ppl.toFixed(2));
+      $('#ticktime').text('forw/bwd time per example: ' + tick_time.toFixed(1) + 'ms');
+
+      if(tick_iter % 100 === 0) {
+        var median_ppl = median(ppl_list);
+        ppl_list = [];
+        pplGraph.add(tick_iter, median_ppl);
+        pplGraph.drawSelf(document.getElementById("pplgraph"));
+      }
+    }
+  };
+
+  var gradCheck = function() {
+    var model = initModel();
+    var sent = '^test sentence$';
+    var cost_struct = costfun(model, sent);
+    cost_struct.G.backward();
+    var eps = 0.000001;
+
+    for(var k in model) {
+      if(model.hasOwnProperty(k)) {
+        var m = model[k]; // mat ref
+        for(var i=0,n=m.w.length;i<n;i++) {
+
+          oldval = m.w[i];
+          m.w[i] = oldval + eps;
+          var c0 = costfun(model, sent);
+          m.w[i] = oldval - eps;
+          var c1 = costfun(model, sent);
+          m.w[i] = oldval;
+
+          var gnum = (c0.cost - c1.cost)/(2 * eps);
+          var ganal = m.dw[i];
+          var relerr = (gnum - ganal)/(Math.abs(gnum) + Math.abs(ganal));
+          if(relerr > 1e-1) {
+            console.log(k + ': numeric: ' + gnum + ', analytic: ' + ganal + ', err: ' + relerr);
+          }
+        }
+      }
+    }
+  };
+
+  var iid = null;
+  $(function() {
+
+    // attach button handlers
+    $('#learn').click(function(){
+      reinit();
+      if(iid !== null) { clearInterval(iid); }
+      iid = setInterval(tick, 0);
+      //iid = setTimeout(tick, 0);
+      //setTimeout(function() {
+        //console.log(saveModel());
+      //}, 1000);
+    });
+    $('#stop').click(function(){
+      if(iid !== null) { clearInterval(iid); }
+      iid = null;
+    });
+    $("#resume").click(function(){
+      if(iid === null) {
+        iid = setInterval(tick, 0);
+      }
+    });
+
+    $("#savemodel").click(saveModel);
+    $("#loadmodel").click(function(){
+      var j = JSON.parse($("#tio").val());
+      loadModel(j);
+    });
+
+    $("#loadpretrained").click(function(){
+      $.getJSON("lstm_100_model.json", function(data) {
+        pplGraph = new Rvis.Graph();
+        learning_rate = 0.0001;
+        reinit_learning_rate_slider();
+        loadModel(data);
+      });
+    });
+
+    $("#learn").click(); // simulate click on startup
+
+    //$('#gradcheck').click(gradCheck);
+
+    $("#temperature_slider").slider({
+      min: -1,
+      max: 1.05,
+      step: 0.05,
+      value: 0,
+      slide: function( event, ui ) {
+        sample_softmax_temperature = Math.pow(10, ui.value);
+        $("#temperature_text").text( sample_softmax_temperature.toFixed(2) );
+      }
+    });
+  });
+</script>
+
+<script>
+  function adaptMatrix(old) {
+    old.rows = old.n;
+    old.columns = old.d;
+    old.__defineGetter__('weights', function() {
+      return old.w;
+    });
+    old.__defineGetter__('recurrence', function() {
+      return old.dw;
+    });
+    return old;
+  }
+  setTimeout(function() {
+    var rnnViewer = new RNNViewer({
+      container: document.getElementById('container')
+    })
+        .addMatrix(adaptMatrix(model['Wil']));
+
+
+    for (var d = 0; d < hidden_sizes.length; d++) {
+      if (generator === 'lstm') {
+        rnnViewer
+            .addMatrix(adaptMatrix(model['Wix' + d]))
+            .addMatrix(adaptMatrix(model['Wih' + d]))
+            .addMatrix(adaptMatrix(model['bi' + d]))
+            .addMatrix(adaptMatrix(model['Wfx' + d]))
+            .addMatrix(adaptMatrix(model['Wfh' + d]))
+            .addMatrix(adaptMatrix(model['bf' + d]))
+            .addMatrix(adaptMatrix(model['Wox' + d]))
+            .addMatrix(adaptMatrix(model['Woh' + d]))
+            .addMatrix(adaptMatrix(model['bo' + d]))
+            // cell write params
+            .addMatrix(adaptMatrix(model['Wcx' + d]))
+            .addMatrix(adaptMatrix(model['Wch' + d]))
+            .addMatrix(adaptMatrix(model['bc' + d]));
+      } else {
+        rnnViewer
+            .addMatrix(adaptMatrix(model['Wxh' + d]))
+            .addMatrix(adaptMatrix(model['Whh' + d]))
+            .addMatrix(adaptMatrix(model['bhh' + d]));
+      }
+    }
+
+    rnnViewer
+    // decoder params
+        .addMatrix(adaptMatrix(model['Whd']))
+        .addMatrix(adaptMatrix(model['bd']))
+        .render();
+
+    setInterval(function() {
+      var coldColor = rnnViewer.coldColor,
+          hotColor = rnnViewer.hotColor;
+
+      rnnViewer.values.forEach(function(value) {
+        var v = value.percentValue * 100,
+            r = (coldColor.r + hotColor.r) / v,
+            g = (coldColor.g + hotColor.g) / v,
+            b = (coldColor.b + hotColor.b) / v;
+
+        value.frontFace.color.setRGB(
+            r,
+            g,
+            b
+        );
+        value.rearFace.color.setRGB(
+            r,
+            g,
+            b
+        );
+        value.square.colorsNeedUpdate = true;
+        //value.mesh.geometry.elementsNeedUpdate = true;
+        value.mesh.geometry.colorsNeedUpdate = true;
+      });
+
+      rnnViewer.render();
+    }, 200);
+  }, 1000);
+</script>
+</body>
+</html>