互联网2010
时间:2023-05-23 来源: 作者:圳南
所以其实具象去看,它就变成了一个射击游戏,你不断地给机器喂数据,让它学着怎么去命中靶心。一旦它学会了,那换了另一个靶子,它大概也能做到差不多的水平。
当然,再具体去说,数据很复杂,情况也多变。这里我们就不细致探讨。”
路舟也同样在台下,也就当学习一般听着,毕竟陆铭所讲也算有趣。
陆铭,“其实,你再反向去看这个射击的场景也会很有意思。如果是人去学习射击该是怎么样的过程首先大脑传达信号,然后手指的肌肉产生反应,进行射击后我们通过眼睛去识别到底打中没有。
而机器呢,它没有这些东西,所以我们给它一个输入输出函数,输入到机器,它就出来反应,然后它再根据loss识别到底命中没有。
那都打不中怎么办,那就学到会为止。而事实上,这就是我们常说的人工智能,其实它就是用数学来模拟我们的生物特征。尽管实际应用中,它和统计更加相关。”
......
在和陆铭确定了接下来一些微讯的系统研究课题后,路舟也就驱车准备回公司。
临走之前,路舟却是在陆铭的讲解中突然就冒出了个脑洞来。
路舟对陆铭问道,“师兄,刚刚你说的射击场景还记得吧。”
陆铭点头,“嗯。怎么,有什么问题”
路舟,“问题是没有。我就在想,你刚整个过程不是一个简化和比喻吗”
“对,算是个比喻。”
路舟,“那么,复杂化的情况你觉得怎么样”
陆铭听了一脸好奇,“嗯”
路舟说道,“ai和正常编程处理数据的区别,一般我们也都说,是否需要显式编程。”
陆铭点头,“嗯。”
路舟摩挲着下巴,“那么我要是给一台机器装上移动的手臂,再接着给它装上摄像头和传感器。那么,这个射击的学习过程是否真的成立。
嗯。我是指一次编程定义,最后机器真的学习了射击这个动作。”
陆铭,“......这个似乎有些不大不要,真的就是一个例子。”
路舟摇头,显然陆铭是没有理解他的意思。
“那这样,这个机器的身体我做得足够复杂。我也不进行显式编程来定义它的动作,而仅仅是在隐式的神经网络中定义好传感器的参数。
只要机器身体结构足够优秀,它是否有可能出现真正的学习,比如,从零开始蹒跚学步,学习奔跑跳跃,甚至投篮打羽毛球。”
陆铭这算是听懂了路舟的话,“理论上推动n训练确实可行,但现时命中率是个问题。如果你是选择相信hinton的话。”
路舟也没有理会陆铭,却是继续说了下去,“不不师兄,我是在说真正的人。”
“单单身体也许你还很难理解,那如果是增加听觉传感,然后再给予它一个喇叭呢”
陆铭乐得,他笑了笑,“所以你要让它学习语言这也算是个很好的课
243.数据工厂
路舟走后,陆铭回到了实验室内。顶 点 m.x
他一边走到后排,吩咐助手将新买的显卡拆出来安装。显得要老旧点的是他从住所搬过来的gtx280,而大多则是微讯的员工送过来的英伟达最新型号gtx580。
去年发表的论文堪称震惊世人。论文中采用了gtx280来处理数层的神经网络。而在此之前,神经网络的发展是一直苦于cpu的处理速度限制,而即便是要使用gpu,也得为特定的问题制作特定的算法。
而说来让陆铭觉得巧的是,路舟年前给他提这事还让他颇为头疼。但就仅仅几天前,新发布的论文提供了一种快速、可参数化的卷积神经网络,这可当真是瞌睡了来枕头。
当然,对陆铭来讲麻烦事自然也有,比如数据集的问题、实习生的水平问题、最终实际应用的问题。
而这些都得靠时间一点点解决。
陆铭想了想就笑了起来,他是没多大心态变化,反而是更加期待这接下来的工作。
反正天大的事也不是他陆铭顶着,这背靠着小学弟他也就安心研究便是。
......
两周后,梦谷云低调上线了众包平台。
大多数关注到消息的网民第一反应,“!”
尽管众包的模式并不算新鲜,但让人感到新鲜的在于众包中的项目。
梦谷众包分了数个栏目:语音转文字、图片转文字、图片标注和分类、脸部照片和视频、脚部照片等。
前头两项按照提交的量计费,而后两项则是一次计费。
有眼尖的互联网从业者这就认出了这梦谷众包模仿的是亚马逊众包。须知,著名的image中就有大量来自亚马逊众包的数据集。
梦谷云这是要搞事情啊有没这么牛逼
当然,外头怎么猜怎么想是别人的事情。
一周后。
此时的路舟正在前往郑市的飞机上。说来,这是他第一次去这城市。
路舟身边是坐了梦谷推广广南分公司的经理周凯。身后的周达和王强东倒不是必要来的,不过是和周凯相熟一起合作所以也是跟了过来。
事情的倒也简单,无非还是ai那点事,需要一些下游的公司来处理一些业务。
在陆铭的实验室研究项目开始运转后,路舟先是安排了微讯向海天瑞声购买了一批语音库供陆铭研究使用。
海天瑞声是早在98年开始就做着语音标注的业务。路舟所买下的语音数据库,里头的结构可以看成是一段语音对应一段文字。这样的库被广泛地用于训练ai,做语音识别或者转换等领域。
至于这些库的源头那自然是人工听取再标注出文字数据。
而有语音标注,自然就也有图片、视频。这些都被称为数据标注。一个神经网络搭建后,需要用到的训练数据便大多是来自于这里头。
梦谷云上线众包或者路舟这次来郑市的目的也在于此,找人,认数据,练ai。
至于裨益,那简直是全方位的。几乎所有梦谷内的产品都能有所获益。
“周凯。”
“老板请讲。”
路舟摆了摆手,“叫我路舟吧还是。说说,你是怎么就这么大胆公司刚上众包一个月,你这就敢拉起工作室来搞的”
周凯笑道,“那是老板一直赏饭吃。作为公司一员,我可得时刻关注公司的产品状况。这不众包一上,我和他俩一合计觉得可以弄,这就直接安排了搞。
咱这省是华夏人也知道,人多嘿嘿,自然招工成本也是低的。”
路舟点头,“那你们三人执行力也算挺强。”
周凯说道,“其实乡里本就有做这行的,有所见闻我这上手也快。”
随后路舟也不多问,毕竟具体还是要看了才知道状况。
&n
244.非智能重复
周凯这里头,路舟所看到的是有四排工位,每排所做也有一定区别。顶 点 顶 点
一排的员工多是戴着耳机,听取的内容应该是梦谷众包处理过的微讯用户的一些语音数据,他们会在听取后将语音转换成文字,个别指定的词汇还会贴上属性标签。
这些语音在分包出来前会做进行一定的处理。
第二排则是图片中文字选取,需要拉出选框选出文字,然后在选取后将文字打进系统中。
这中间又分成了印刷体和手写体的区别,对人来说识别颇为简单,但对机器却成了两码事。即便是早期的ocr,统计分析后不可避免也需要一定的人工校对。
第三排的屏幕上则多是人脸图片,员工需要在人脸上按照系统提示标注人脸上的特定位置,拉出标注线,也会需要标注些分类标签,诸如性别人种面部朝向表情等。
第四排则多是男性员工,所做则是鉴黄和标注。他们需要从纷繁图库中一遍遍过图,找出涉黄的图片,再按要求进行分类标注等等。
看到这里,路舟也算是大略了解了一下周凯公司内的状况。
尽管ai前景看似光明无比,可看到此情此景路舟却感到了多少有些矛盾。即便他对这样的场景也有所预料。
看似智能,却需要建立在大量人非智能、不间断重复的工作结果。
这里就像一个数据的工厂一般。
有多少人工智能,也许就有多少人工,路舟想。
不过某种意义上,路舟也需要借助这些人工才能获取大量ai训练的数据。
毕竟买数据是一方面,个别开放的标注图片库如image则是更适合于拼比比赛。路舟想要做适配自己系统的ai,那自然就还是得投入成本,这样起码能通过员工端来调整需要标注的范围。
伴随着未来推进速度越来越快,这些工作也许会再学着亚马逊众包一样开始向亚非拉等发展中国家迁移以便拉低成本。但涉及了母语的类目,大抵还是只能在国内做。
周凯一边迎了过来,“路总,怎么样”
路总微微点头,“不错。”
这倒是真心话。至少管理规划上,周凯做得是比自己想象中要完善得多。
周凯微笑,“这边给到的福利待遇还是不错的,也不怎么加班。我们招人也多会去职专中找员工,毕竟工作虽是简单,但还是要些电脑操作能力。”
路舟,“嗯。我安排开发个专门的标注系统,这样我方便调整,你们也能提高效率。公司的问题,你直接找梦广的王总谈,我们以合资的形式做。记得带上这头的一些账务去和他谈。”
周凯一听是好生大喜,在路舟身后朝王强东和周达两人一挥拳,“没问题路总!”
随后路舟又回身提醒了一句,“我不反对分包到下头的作坊处理,但需要你自己多有注意。原则上梦谷不会参与这公司的任何运作,我也只看结果。”
......
两小时后。
路舟是推却了周凯饭后活动的邀请,“直接带我去酒店吧。联系一下你的朋友,明天我想了解一下对方做siri项目的事情,如果方便的话。”
周凯点头哈腰,“方便方便!我马上联系。”
路舟,“行。可以的话明早。我希望下午就能离开。”
周凯听了是连连道好,赶忙给路舟联系好了明天的安排。
而等到将路舟送进了酒店,这一行三人才算是松了一口气。
周凯对两人说道,“走!洗脚。宵夜就免了,明天还得办正事。”
&nbs
245.大话
第二天一早,确认了周凯老乡的源头不过是“黄牛”后,路舟是兴趣缺缺地离开了郑市。
在路舟前往京城的同一时间内,微讯内静谧无声地开始了一场“清算”。
首先是上线了不良信息举报系统,包括诈骗、传销、涉黄、涉毒等的信息收集。
据此是冻结了数千万的资金,大多是微讯钱包中的余额。这大多是涉事金额过大的情况。微讯也成立了专门的监察部门来应对这些问题,相应的事情也配合着有关部门来逐步处理。
一时间“江湖”之中难免不少人倍感脊背发凉。似乎路舟是杀起来更果断的老总。
大抵诈、骗二事是人多了就总得有,微讯之中路舟也赶不净杀不绝。而诸如黄,那到底还是有受益者,诸如陌聊。
在此之外,微讯之中也在调整这一些自动监控的事情。
尽管陆铭给到的方案上并不完善,而训练的数据也较为有限,不过程旭元是已经将之调整并和原有的数据监控系统进行了一定的结合。
优先清理的自然是朋友圈数据,毕竟它算是微讯中目前最大的“公地”。
先是稍暴露了三点的图片遭殃,后是文字中带有隐晦的信息被封。对一个账户来说,一两次尚且无碍,而多了那直接便是封停。
自然,依旧是有醒目的将之类文字直接p了在图片之中。
可要不了多久,这做法便是不奏效了。这就让多数人不由惊叹起微讯的内里来。尽管这类也存在错杀又或者漏杀。
当然,朋友圈是稍干净些,而接下来则是公众号内的清算。
尽管公众号推出时间并不算太长,但相应的文章量也达到了较为可观的量数。清算的时间并不会太晚。
路舟也明白这个安排中,眼看就只有朋友圈和公众号。涉及了私人聊天、群聊,那微讯眼下是实在还没有精力,没有能耐,也耗不起成本来做这吃力不讨好的功夫。
这也只能是让微讯表面上看起来稍干净些。而本身,管理和钻营大抵就是一场无休止的战争。
至少就程旭元告诉他的事情中,公众号内便是已经开始出现了刷量、刷赞的工作室。
路舟只能是优先解决了沙雕广告的反作弊,毕竟刷量导致微讯的损失,至于多了,那对微讯眼下来说也是在太难。
而所谓清算、整顿,那就是把杂草割上一茬,指望斩草除根那未免太不现实。
......
前一日,科技大话王工作室内。
赵振宇在自己的办公室内葛优躺着,喇叭里播放着歌曲《老街》。
说来自己是相当喜欢这首歌,尽管偶尔放出来总有些员工还老以为他放的是周杰伦的新歌。
对于同为北漂的赵振宇而言,这不那么有名的制作人的故事或者歌也好,总是莫名地打动他。
猜你喜欢