严格来讲的话,同样是标注数据也是可以区分为专家标注和众包的。所谓的“专家标注”也不是真的专家去进行标注。“数据标注”听起来似乎蛮高大上的,但实际上呢?进行数据标注过程往往非常复杂,涉及到数据量特别多的时候,对人工劳动力会有很高的要求。虽然不能说低端吧,但这种机械而繁复的工作至少跟高端是没啥关系的,砖家教授肯定是不会去干这活的。所谓的专家标注一般都是由苦逼的算法工程师进行兼职。或者由专门的算法数据标注员进行标注。所谓的数据标注员是一种新兴职业。前世,随着大数据以及人工智能时代的到来,为了应对数据标注的工作在互联网上出现了一种新型职业——数据标注员。beqege.数据标注员的工作是使用相应的工具从互联网上抓取、收集数据,包括文本、图片、语音等等。然后对抓取的数据进行整理与标注。这些数据标注员工具体的工作流程一般很明确:首先,标注人员经过培训,确定需要标注的样本数据以及标注规则;而后,根据事先安排好的规则对样本数据进行打标;其次,对标注完以后的结果进行合并。而算法数据标注员稍稍有别于一般的数据标注员。相比于一般的数据标注猿,算法数据标注猿往往在完成以上的步骤之后。还要通过标注的数据喂模型进而调试模型。尽管工作流程只是多了这一步,但专业的算法数据标注员依旧是凤毛麟角。从先前罗列的任务也可以看出算法数据标注员的任务不仅仅是数据标注。往往还需要根据标注的数据进一步评估算法模型。如此一来很多时候对书记标注员的要求是这些人不光要进行数据标注。还得懂相应的算法。同时满足这两个条件的人很多时候完全是凤毛麟角。正因为这种专业标注的人员很少。往往专家级标注只能够胜任小量级的数据。对于大规模数据标记和超大规模数据的标记任务想要依靠专家标记很多时候只能是力不从心。对于大规模数据标记和超大规模数据标记往往只能寻求众包了。众包模式是将零散的个人、小标注团队,整合到平台上,完成一个完整项目的服务模式。这种模式的主要优势成本很低,且比较灵活。尽管前世机器学习长期所致力于的工作就是能够以众包数据或者干脆是无标数据取代专家标注。但真要问专家标注和众包数据哪个受欢迎。那自然是前者。这种情况下夸大标注数据中专家标注所占的比例很容易收获到更高的溢价。听起来似乎很奸商。但也仅仅只是听起来而已。如果林灰所大肆赞美的标注数据和现在的专家标注水平真的区别很大的话。那林灰吹破大天也没用。毕竟打铁还需自身硬。林灰既然敢宣称标注数据中专家标注所占的比例很高自然有底气。怎么说呢?往后几年即便是一些非专家标注的数据,在行业标准化、规范化的情况下。很多时候,就算是众包的数据也未必比现在的行业尚未完全标准化以及规划化的专家标注的水平差。就算林灰拿往后几年的非专家标注数据去忽悠人。想来这个时空也会有人去买账。没办法,技术强势就是可以为所欲为。通常时候,有钱确实可以为所欲为。但为所欲为的同时别人很可能拿你当孙子。有技术一样可以为所欲为。但你为所欲为的时候,别人却得拿你当爷爷。看看后世某些厂商拜寿式抢首发大概就能够对“因技术而来的爷爷地位”这种说法管窥一二了。2021时空来到2014时空。这两个时空虽然只是七年的时间差。但这就意味着林灰在大部分领域都最起码拥有七年的信息差。而这个时代某些方面的短腿又使得林灰在部分领域拥有远不止于七年的信息差。很多前世原本不那么先进的技术放到这个时空就是领先时代的存在。如此一来,林灰真的可以为所欲为。甚至于在这个时空的很多领域林灰真的就是爷爷级别的存在。别人涉足同一领域那就是当孙子。如果当孙子的话还会有人吗?当然了,不知道多少人在排队当孙子。有的领域即便是林灰的潜在地位没有“爷爷级”那么夸张。但林灰同样是拥有相当明显的先知优势。这种先知优势并不仅仅表现在技术细节先知上。还集中表现在诸如路线优势等寻常人不容易察觉的细节上。在多个领域拥有近乎于绝对优势的情况下。林灰的地位是突出的。潜在拥有的地位更是超然的。甚至于只要林灰不去违法犯罪。这几乎就是林灰可以为所欲为的时代。不过除了法律这种硬性红线和最基础的人格底线之外。总会有一个看不见摸不着的红线一样在影响着林灰。当然,这条红线并不是道德。事实上对于一些功成名就或者说小有所成的人道德方面基本上并没有红线,只有黄线。普罗大众对功成名就或者说小有所成的人道德约束是相当宽泛的。甚至于此前林灰已经做好了接受道德绑架的准备。但事实是林灰还没有遭到这方面的控诉。甚至还有很多人会尝试着往道德深渊的方向引诱着林灰。就比如微\/博上每天就有很多人天天给林灰发来各种要给他生猴子之类的私信。甚至还热络地给林灰发来各种图鉴,就很无语。尽管林灰内心有道德标准。但涉及到道德方面的潜在约束力并不是林灰的潜在敌人。真正的影响林灰的看不见摸不着的另一条红线。那就是“合理性”。很多时候顾念着合理性方面的考虑。使得林灰不能够为所欲为。纵然林灰很多技术是绝对意义上的领先,但依旧是没法肆无忌惮的搬运的。有“合理性”这层看不见的红线存在。林灰做事有很多顾忌。