鹏抽出打印好的图表,贴在白板上,“我的方法,在相同训练、测试划分下,目前是817。错误分析显示,提升主要来自动物类和交通工具类。”
“这些类别视角变化大,手工特征容易失效。”
34个百分点的提升,在视觉领域已算显着。艾米丽轻声赞叹,汤姆也坐直了身体,只有捷尔任斯基,小声的吹了个口哨。
但维杰还没放弃,“你的模型参数量多大?过拟合风险呢?”
“参数量,卷积层约17万,全连接层约12万,总计不到14万。作为对比,一个三层的全连接神经网络,输入是64x64x3=维,隐层若取500单元,参数量就超过600万。”
曹鹏从容应对,“至于过拟合,我用到了数据增强,平移、旋转、缩放、dropout,以及在损失函数中加入权重衰减。五折交叉验证的方差在08以内。”
滴水不漏。维杰靠回椅背,终于露出一丝苦笑,“行吧,看来你都考虑到了。”
“不,还有问题。”曹鹏忽然说。所有人都看向他。他指向白板上的一处,“稀疏编码的字典学习,我目前用的是在线梯度下降,但初始化敏感。我试了ksvd和od,效果都不稳定。”
“这是我今天想请教大家的:有没有更好的字典初始化策略?或者,我们是否该换一种思路,不学固定的字典,而学一个能生成字典的函数?”
问题抛回给小组。一直沉默的瑞迪教授此时开口,声音里带着赞许,“很棒的思考,曹。字典初始化……让我想到非线性降维中的局部线性嵌入。或许可以将lle的邻域重构思想迁移过来,用局部样本的线性组合初始化字典原子。”
讨论就此转向更深的技术细节。维杰出用拉普拉斯特征映射约束字典原子的平滑性,艾米丽建议在损失函数中加入判别性项。汤姆贡献了一个cuda加速的idea。虽然实现细节有待商榷。
曹鹏听着,不时点头,在笔记本上记录。辩论时的锋芒收起了,此刻他是海绵,吸收每一点有用的灵感。当艾米丽提出一个巧妙的正则化方法时,他眼睛一亮,迅速推演了几步,抬头说,“这个可以和我之前想的流形约束结合。”
“如果我们把特征空间视为黎曼流形,你的正则化项其实就是对流形曲率的惩罚。艾米丽,会后能详细聊聊吗?”
艾米丽笑着点头。
维杰插话,“曹,你总能把不同领域的东西缝在一起。上次是稀疏编码和视觉注意力,这