而且速度上同LIN HUI算法的差距还算在哈雷·普莱斯理解范畴之内。
准确度上同LIN HUI算法的差距才是真真正正地大到让人绝望。。
在哈雷·普莱斯他们搞得X1算法准确度上甚至都比不上连尼克那个蠢猪弄得雅虎新闻摘要里采用的算法的摘要准确度。
这让哈雷·普莱斯很是郁闷。
……
过了一会,哈雷·普莱斯突然灵光一现,对埃克莱尔·基尔卡加喊道:
“亲爱的伙计,你说问题会不会是出在LIN HUI搞得那个准确度衡量标准上。
应用那个准确度衡量标准的话,只有LIN HUI自己的算法用那个衡量标准才会获得高分……”
埃克莱尔·基尔卡加:。。。
埃克莱尔·基尔卡加:“或许你的想法有你的依据,但是我现在更建议你去睡觉……你可能有点恍惚了,究竟是什么原因让你觉得一个标准委员会审核过的标准会是一个不公平的标准呢?”
哈雷·普莱斯:“因为那个LIN HUI是c国人,他们什么手段都会干,我记得他们国家有的手机厂商为了宣称自己的手机强大还会专门开发一个测试软件,使用那个测试软件只有他们自己的厂商搞得手机才能获得高分。
照我看来,那个LIN HUI搞得那个衡量标准度的模型就是类似于这样一款测试软件……”
哈雷·普莱斯接着道:“总之,我觉得那个LH文本摘要准确度衡量模型对于我们来说非常不利。
或许我们可以参照LIN HUI的思路搞一个自己的衡量标准……”
埃克莱尔·基尔卡加:“你说的这个问题我倒是也设想过。
可是参照LIN HUI的构建标准的过程进行模型构建并不容易。
按照LIN HUI的思路构建类似的标准的话。
首先我们需要运用语言模型来评估算法生成语言的流畅度,然后…
如果我们按照同样的步骤进行模型构建的话。
很可能会直接卡死在语言模型的构建上。
毕竟我们的语料库实在是太逊了……
我们以前合作的麻省理工学院NLP那边给出的报告
也证实了按LIN HUI的思路构建语言模型不可行。”
哈雷·普莱斯:“麻省理工学院那帮人认为不可行,未必就真的不可行。
他们很有可能是他们在逃避责任而已。
反正我觉得完全可以试着借鉴LIN HUI的思路搞一个新的衡量标准。”
埃克莱尔·基尔卡加:“你确定我们能够按照LIN HUI的思路弄出一个新模型么?
你怎么保证我们弄出的模型不会跟他搞得那个一模一样?”
哈雷·普莱斯:“不管怎么说,我们也需要走这条路。
如果我们连他衡量准确度的模型都不能复现出来。
我们怎么知道他在这套模型究竟有没有猫腻?”
哈雷·普莱斯接着道:“以前我们的语料库或许很low。
但现在我们采用的语料库没什么问题。
现在是加州大学伯克利分校的自然语言中心在和我们合作。
我们测试X1验证算法时可是由10万个文本–摘要序列所组成的语料库作训练集的……”
埃克莱尔·基尔卡加反驳道:“不不不,这远远不够!
想要达到LIN HUI算法处理文本那种水平,我们起码需要百万级别文本-摘要序列组成的语料库做训练集。
而这还只是冰山一角。
我们还需要构建一个10^4级别带人工打分标签的文本–摘要序列作为验证集。
以及一个10^3级别的个人工交叉打分一致的文本–摘要序列作为测试集。
否则我们的衡量模型很可能达不到LIN HUI搞得那个模型那种置信度。”
哈雷·普莱斯:“你的话确实有道理!
为了缩小边际误差最实际的方法就是增加样本数量。
百万级别文本-摘要序列组成的语料库倒是好说。
这个相比于十万级别的语料库。
构建难度只是线性增加而已。
但是你确定我们要构建你说的那般庞大的带人工标记的验证集和测试集吗?
仅仅是带人工打分标签的文本–摘要序列验证集保守估计就需要我们花费近一个月的时间去搭建。
这还得是我们还其他语言学专业通力合作不产生嫌隙的情况下。
而涉及到10^3级别人工交叉打分一致的文本–摘要序列测试集更是难上加难。
以前我们只构建过10^2级别的。
测试集的搭建每上涨一个数量级相应的构建难度可是指数级的往上增长。
先前我们为测试提取式摘要算法构建的那个150条文本交叉打分一致的测试集就用了将近两个月的时间。”
而且为什么我们还要引入人工因素?
这样的话不是相当于又回到以前开发那种带有主观色彩的准确度评判标准的老路上了吗?”
埃克莱尔·基尔卡加:“这也正是我想表达的意思。
本来我也觉得不可能参照LIN HUI的思路搞出新的衡量标准。
即便我们能按着LIN HUI的技术路线走。
也会面临着过于庞大的工作量。”
听了埃克莱尔·基尔卡加的话。
哈雷·普莱斯很绝望:“也就是说仅仅是建立准确度衡量标准时的起步工作就会耗费我们大量的时间?
可是负责决策的那些高层根本不可能坐视我们在这个算法上浪费太多时间。
他们很可能会去直接谋求LIN HUI的算法授权。
对于那些商业精英来说,技术什么的本来就是资本游戏的添头。
当他们获得LIN HUI的新技术后我们估计会很惨……
我们究竟该怎么办呢?”
埃克莱尔·基尔卡加:“谁知道呢?兴许我们该收拾收拾准备去y度了。”
哈雷·普莱斯:“能去y度还不错呢,听说最近在筹建谷歌非洲研究中心了。
运气不好的话,估计我们要去非洲了。”
埃克莱尔·基尔卡加:。。。
当然了这些话只是调侃而已。
好歹也是顶尖研究机构的科研人员。
埃克莱尔·基尔卡加还不是那么容易就丧失斗志。
过了一会儿,埃克莱尔·基尔卡加道:“倒也不完全是无计可施。
我觉得我们不要按照LIN HUI的技术路线走。
这个LIN HUI太狡猾!
他公开在外面的信息很可能是留下来误导我们的。
我们现在要做的是明确凭借我们自身归纳出的一些结论。”
喜欢穿越:2014请大家收藏:(www.dibaquxiaoshuo.com)穿越:2014第八区小说更新速度全网最快。