< Distilling the Knowledge in a Neural Network >
作为model compression系列中比较具有代表性的paper,选取这一篇做为开头。其实在这篇文章之前也有两篇是做出一定贡献的,不过不单独列出来写了,会在后文提到。
首先讲一下model compression的motivation:
其实应该是很直接的业界需求 - 一个很大的DNN往往训练出来的效果会比较好,并且多个DNN一起ensemble的话效果会更加的好,但是当用在实际的应用中的话,过于庞大的DNN ensemble在一起会增大计算量,从而影响应用。于是一个问题就被提出了:有没有一个方法,能使降低网络的规模,但是保持(一定程度上)精确度呢?