同林灰的这次交流,贺天昌也收获良多。当然了,贺天昌这个层级除了最前沿的知识之外已经很难再获取什么新知识了。而林灰就算学术上有些优势也不可能不分场合的去卖弄。因此贺天昌的主要收获是:通过和林灰的交流印证了先前的一些判断。首先就是南风App涉及到的一系列专利。当时从老付那搜罗到一堆关于林灰的消息中,最让贺天昌意外的当属一堆专利申请了。<huba.当看到林灰国内外繁杂的专利申请时。贺天昌就感觉似乎看到了一张被精心编织起来的大网。至于为什么要编织这样一张网,大概率是为了构筑专利壁垒。当时得出这个判断的时候,贺天昌就很欣赏林灰。毕竟能在18岁就拥有这份沉稳,属实难得。这通电话中,贺天昌将这件事提出来之后,又从林灰口中得到了验证。印证了自己的判断之后。贺天昌不由得更加欣赏林灰了。当然了贺天昌知道林灰之所以大大方方毫无避讳地承认这件事是因为林灰构筑的壁垒已经实现了。贺天昌一直在关注林灰专利申报的情况。因此林灰专利壁垒顺利组网这件事贺天昌早就注意到了。贺天昌觉得如果林灰的规划尚未实现的话以两人刚刚初识这种程度即便贺天昌将这个问题抛出来。林灰也未必痛痛快快地承认这件事。换作是二十年前的话,这种谨慎且算计较多的性格,贺天昌可能会很反感。但现在的话,贺天昌反而欣赏这种性格。_一段时期研究似乎是太渴望进展了。很多技术不待完成完成技术壁垒的构建就冒冒失失地拿出来。很多技术明明很有商业价值,可因为准备不足往往被对手钻空子。最终导致,明明是金镶玉,却只能卖出白菜价。不免让人痛心。跟林灰的交流,贺天昌询问了一些关于生成式文本摘要算法的问题。当然贺天昌好奇的不是具体技术本身。他好奇的是林灰的科研过程。像林灰这样一个未经过学术方面系统学习的人是怎样一个人搞定全球领先算法的呢?贺天昌问了林灰一些常规的问题。比如说林灰是怎么搞定语言模型训练的语料库的?事实上这并不是林灰第一次听到这个问题了。先前尹芙·卡莉就在信中提问过林灰这个问题。不过就算林灰以前没听人提过这个问题也不用担心被问住。涉及到生成式文本摘要算法专利,最容易让这个时空外界不解的就是语料库的问题了。不提前想好牵扯到训练语言模型所用到的语料库问题该怎么解释就贸然拿出文本摘要方面的新成果很容易遭受这样那样的质疑。这样的问题林灰早就注意到了。凡事预则立,不预则废。对于这个问题,林灰准备了至少三个备选的答桉。林灰将他先前准备好的说辞说给了贺天昌教授。贺天昌有种茅塞顿开的感觉。贺不由得感慨果然长江后浪推前浪啊。不过,在林灰提到的几种方法中。贺天昌比较奇怪的还是借助互联网自动构建文本语料库这种方法:当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。从每个网站中筛选出用户所需要的文本作为候选语料。而后对形成的语料库进行去噪。事实上这种方法贺天昌记得以前看过国外大学一些学报似乎记录过这方面的研究。可国外那次失败了,因为采集到的语料库噪点太大,停用词过多,根本不堪一用。林灰为什么会提出这种方法。莫非林灰对去噪所用的算法一定有独到的理解。涉及到NLp什么的其实贺天昌也不是很擅长。但问题不大,贺天昌国内可是有些老朋友很是精于此道的。贺天昌默默将这事记下了。同贺天昌学术上的交流,林灰收获还是很大的。首先就是借贺天昌林灰知道了国内在自然语言处理前沿方向的研究情况。而国内现在在NLp方向的研究是什么状态呢?简单的概括就是“白纸一张”当然并不是说国内没有研究自然语言处理的,只是这些人研究的进度同国际上研究进度大致相彷。也就是说整体上落后于前世2014的研究进度的。在这种情况下,林灰想做学术搬运工的话似乎也是如入无人之境。整个自然语言处理以及神经网络学习这两个方向几乎就是林灰面前的一张白纸。等着林灰在上面书写下华丽的篇章。不过即便如此,涉及到具体执行的时候林灰也不会大包大揽。只需要林灰适时搞定一些关键的进展。涉及到一些琐碎方面的进展就没必要过于贪功了。毕竟学术方面的成果并不是一蹴而就的。随便一个涉及到生成式摘要算法这样简单理论背后的东西也是超级麻烦。尽管很麻烦但结果值得期许。在通话临近结束之时。林灰又几次三番地感谢了贺天昌教授为了帮他申请一些扶持这事。贺天昌却坚称即便将来有扶持性政策,也都是林灰应得的。话是这么说的,贺天昌心里也是这么想的。虽然贺天昌的研究方向涉及不到自然语言处理。但这并不等于贺天昌对涉及到自然语言处理这个研究方向一无所知。他山之石可以攻玉,科研中往往是有触类旁通的说法的。很多时候适当借鉴一下别的行业的研究思路能给自己的研究方向带来启发。因此纵然主攻方向不是自然语言处理这个方向。但这丝毫不影响贺天昌对别的研究方向关注。最起码对一些计算机以及计算机衍生方向取得的进展贺天昌还是很关心的。再加上自然语言处理这个方向比较友好,并不是需要很高的门槛。因此对自然语言处理这方面贺天昌也是涉猎一些的。