“大家好,我叫陈耀宗,目前工作主要是研究概率论。骆教授跟我提了乔源博士的这个想法后,我就开始思考能否将概率图模型,比如高斯过程应用到这个问题上。
但思考过后从理论上来说,这是个很蠢的办法。首先我们需要建立一个带有优质跟劣质标签的大规模论文数据集,然后将之转化为监督分类问题。
显然光是建立这么一个论文数据集就是个极大的工程。而且要辨别论文是优质还是劣质,或者水论文本身需要一个标准………”
…从优化的角度看,我们的目标是要为一个高度非凸且可能存在平坦区域的损失曲面,找到一个能通向全局最优的路径。
在我看来,一篇高质量的论文,其证明路径在抽象的逻辑空间中所形成的几何轨迹应该是迂回的,但最终能收敛……”
“……我认为可以尝试将一篇论文的论证过程建模为一个离散动力系统。其稳定性和收敛性可以类比为论证的严谨和有效………”
……基于以上论证,所以我的想法是,我们也许可以从更基础的特征工程开始做起。
传统ai做文本分类,特征无非是词袋、tf-idf、主题模型如lda。我们可以尝试构建一个多模态模型,同时处理文本、公式和图表……”
……直接从知识图谱的补全角度切入。具体来说,训练一个模型,当输入一篇新论文p时,它能判断出p是否填补了图谱中一个关键的空洞。
我们可以借鉴图神经网络,比如graphsage或gat,来预测这篇论文在目前知识网络中的重要程度……“我觉得刚刚各位老师都说得很好,我是学数据挖掘的,之所以希望加入这个课题,主要还是希望能提升自我。
如果一定要说想法,我觉得就是可以利用无监督学习,对大量论文的嵌入向量做一个聚类。我觉得学术审美的差异或许会映射在不同聚类中心之间的距离和形状上。
这样就可以计算一个轮廓系数的变种,并依此来衡量一篇论文相对于已有知识的位置。
这其中有些是我之前的想法,有些是我刚听鲁教授的发言想到的。
不管如何我的主要目的还是学习和提高,会尽力完成布置给我的任……”
乔源坐在骆余馨旁边,默默听着这个临时组建的兴趣小组成员们的发言。
然后发现他似乎小看了燕北大学的底蕴。
虽然说人都是骆余馨一天找到的,但从发言上看,这些人都是有想法