重生之互联网霸主
时间:2023-05-22 来源: 作者:岁月静歌
这些分析和挖掘带给我们的是美好还是恐惧,完全要依赖大数据从业人员的努力。但是可以肯定不管最后结果如何,这个进程只会加速不会停止,而你我只能投入其中。
但无论如何这件事值得去做,甚至为了提高效率,我们可以将一些繁琐规律的工作交给人工智能去做,这又会让大数据时代发展到大数据应用的机器学习时代。
像刚刚的例子里,数据中蕴藏着规律,这个规律是所有数据都遵循的。过去发生的事情遵循这个规律,将来要发生的事情也遵循这个规律。一旦找到了这个规律,对于正在发生的事情,就可以按照这个规律进行预测。
在过去,我们受数据采集、存储、计算能力的限制,只能通过抽样的方式获取小部分数据,无法得到完整的、全局的、细节的规律。而未来有了大数据,就可以把全部的历史数据都收集起来,统计其规律,进而预测正在发生的事情。
这就是机器学习。
例如,我再举个例子,把历史上人类围棋对弈的棋谱数据都存储起来,针对每一种盘面记录何种落子可以得到更高的赢面。得到这个统计规律以后,就可以利用这个规律和人下棋。
每一步都计算落在何处将得到更大的赢面,于是我们就得到了一个会下棋的机器人,说不定哪一天这个机器人就会以几年的时间学习上千年的棋局后,通过共性和局部战略的学习,通过分析人类落子的意图分析以压倒性优势下赢了人类的顶尖棋手。”
也不管身边目瞪狗呆的四人,宁子默喝了口咖啡润了润喉咙,借着继续说到
“在我讲完刚刚这些事例的时候,相信你们对于我脑中的搜索引擎已经有了一个更远期的看法。没错,它很庞大,它不止是一个可以向人们搜索结果的窗口,而是一个大数据时代的窗口。
bg要做的事情就是要把人类文明从诞生到发展至今说保留的所有信息都进行存储,让它成为一个庞大的数据库,让它为各行各业的人们可供查证的大量数据,让人类在行进的过程中少犯错误、少点痛苦。
但亦或许,那也只是我的痴心妄想。因为人性的贪婪,会让我们及时拥有这么先进的科技,仍旧避免不了那么多问题的存在。
但科技并没有错,完全要看我们应用的方法,以及我们这些从业者是否能拥有一把衡量公正的尺子。
我做不了那么多去衡量公正的事情,但我的有生之年,只想让科技更进一步,让我身边的团队为了人类文明去出一份力。
至于未来那个大时代到来后会成为什么样,我相信就算我老了,也依旧有无数有识之士能作出比我还杰出的事情。
让人类在前行的路上,依旧走着一条正确的路。”
0202.再一次挖角峰语-Kaltix归心
{时间2003年3月4日}
{地点加州帕洛阿尔托}
无论哪个时候谦虚总是好的,但是过于谦虚有时候难免给人误会。所以面对katix三人组,宁子默并不谦虚。
katix三人组说掌握的技术,确实是针对峰语的arank去做的提升。但bg同样在网页页面权重方面有自己的专用算法,搜索引擎本质上的共性让katix技术的融入并不存在问题。
问题在于,如何将katix三人组纳入旗下。这可不是简单地把katix三人组挖过来那么简单,而是对峰语和bg相对此消彼长的“骚操作”。
既然是此消彼长,宁子默不介意亮亮肌肉。
用迅雷不及掩耳之势,拿下三人
于是,这一番大数据搜索的延伸场景摆在2003年这个时代,已经不足以用惊艳来形容。
包括霍夫曼在内,办公室里呆着的四人一幅“懵逼”的样子盯着宁子默,让宁子默一时间有种“说过了”的感觉。
确实,刚刚讲的东西对眼前的四人而言。
太超前了
他们的理解,
或许还跟不上。
没想到赛普突然张了张嘴,小心翼翼地说,“宁,我们三人曾就峰语搜索引擎讨论过搜索引擎技术的发展。本以为我们的展望已经十分超前,没想到你铺开在我们面前的那副画卷完全超越过我们曾经的想象。”
眼前这位叫做宁的年轻人,不仅仅是大名鼎鼎的倍宝o,竟然还是领赢和ysace的联合创始人。
他已经在过去的数个项目中展现了他的创造力,却没想到他在搜索引擎这么专业的领域竟然有着超越这个时代的独到见解。
他关注的不仅仅是技术,更是科技,或者说互联网技术在人类文明未来的发展中所起到的关键作用。
如果说以前很多人问自己搜索引擎可以干什么,自己的回答最多会比宁给出的答案更好一些
“搜索引擎可以帮你更快速找到更专业、更详尽的答案。”
但是今天过后,赛普觉得他或许会给问出问题的人一个更好的答案。
或者说,今天过后,他突然给不出别人一个答案。
搜索引擎可以做什么
宁已经讲得清清楚楚,
但那个未来,
离现在确实还很远。
想到这里,赛普鼓起勇气问到,“宁,你说描绘的画卷绝对是搜索引擎未来最值得去探索的发展方向。”
抱歉地点了点头,赛普讪笑着说,“并不是说我不看好你所说的未来,而是我意识到你所说的那个未来,离我们有些远。它一定会用到大量的新技术去实现,而那些技术并不是一个简简单单的团队可以完成的。
甚至就连目前在搜索引擎领域十分领先的峰语,就算它有足够的技术积累,也不能在短期内达成你所说的那个未来。单单如何将网页文件串联成数据,并以数据库查询的方式来实现搜索,都是个目前短期内难功课的难点。”
“梦想总是要有的,要不然怎么去一步一步实现它”
宁子默把有关梦想的话变了个说话,就在赛普表态的同时,他已经想到了更深层次的东西。
宁子默明白,有一些人,仅仅只靠画饼是不能完全说服的。
自己必须拿出完全体来对付这帮同样有梦想的年轻人
宁子默自信地笑笑,乘着抿一口咖啡的时间在脑子里将峰语搜索的关键技术汇集成册。
把杯子从嘴边拿开的时候,宁子默脑子里有关峰语搜索关键技术的封印,
已然打开
“说到搜索,人们往往会简单地认为搜索只是抓取爬虫从网络上抓取的结果。但实际上,搜索并没有人们想象的那么简单。”
宁子默将杯子轻轻地放在桌上,笑着扫了三人一眼,细细地解释到
“我们谈到大数据搜索,其核心一定是体量极大的数据量。这种体量的数据存储、索引和检索,已经不单单是数据库结构能去实现并解决的。
大数据量的数据存储和搜索一定要有对应的文件存储检索系统,它必定是一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。
我们bg除了在搜索和爬虫上用心外,最核心的部分还是背后那套围绕在bfsbgfiesyste文件系统的核心技术体。这套系统的设计目标,与许多传统的分布式文件系统有很多相同之处。比如,性能、可伸缩性、可靠性以及可用性。
但bfs的还是以应用负载情况和技术环境的分析为基础着重考虑,不管现在还是将来,bfs和早期的分布式文件系统的设想都有明显的不同。所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。
首先,组件失效被认为是常态而不是意外。bfs需要管理成百上千存储机器,同时被相当数量的用户终端机访问。bfs组件的数量和质量导致在事实上,任何给定时间内都有可能发生某些组件无法工作,某些组件无法从它们目前的失效状态中恢复。
当我们遇到过各种各样的问题,比如应用程序bug、操作系统的bug、人为失误,甚至还有硬盘、内存、连接器、网络以及电源失效等造成的问题。所以,持续的监控、错误侦测、灾难冗余以及自动恢复的机制必须集成在gfs中。
其次,以通常的标准衡量,我们的文件非常巨大。数gb文件都可能非常普遍。每个文件通常都包含许多应用程序对象,比如eb文档。
当我们未来需要处理快速增长并由数亿个对象构成的、数以tb的数据集时,采用管理数亿个kb大小的小文件的方式是非常不明智的,尽管有些文件系统支持这样的管理方式。因此,设计的假设条件和参数,比如io操作和bock的尺寸都需要重新考虑。
第三,绝大部分文件的修改是采用在文件尾部追加数据,而不是覆盖原有数据的方式。对文件的随机写入操作在实际中几乎不存在。一旦写完之后,对文件的操作就只有读,而且通常是按顺序读。
大量的数据符合这些特性,比如数据分析程序扫描的超大的数据集;正在运行的应用程序生成的连续的数据流;存档的数据;由一台机器生成、另外一台机器处理的中间数据,这些中间数据的处理可能是同时进行的、也可能是后续才处理的。
对于这种针对海量文件的访问模式,客户端对数据块缓存是没有意义的,数据的追加操作是性能优化和原子性保证的主要考量因素。
第四,应用程序和文件系统ai的协同设计提高了整个系统的灵活性。比如,我们放松了对bfs一致性模型的要求,这样就减轻了文件系统对应用程序的苛刻要求,大大简化了bfs的设计。
bfs还引入了原子性的记录追加操作,从而保证多个客户端能够同时进行追加操作,不需要额外的同步操作来保证数据的一致性。”
端起咖啡又喝了一口,宁子默已经习惯了身边这四人目瞪狗呆的状态。
放下杯子,宁子默再也懒得去解释那些技术细节,但还是提点到
“bfs一早就规划了四大核心技术体,其中涵盖了第一个部分的分布式基础设施,包含的模块有文件系统fie,分布式锁服务chubby和数据化序列协议rotobuffer。
而第二部分是分布式大规模数据处理模块,其中包含分布式运算程序的编程框架和对应的数据查询语言。他们或许和sq和类似,但实际上它应该被称之为dsdoasecificngua。
第三部分则是分布式数据库技术,它包含的模块就有分布式数据存储系统biabe和数据库分区系统shardg。
最后一部分当然包含数据中心优化技术,这些技术中包括综合考虑的数据中心高温化,还有电池与服务器相应整合技术等。”
撇了撇嘴,宁子默皱着眉头说,“搜索引擎是一个全盘技术的考虑,但我仅仅只举了一个很简单的例子,并且其应用范围还只是在网页搜索结果当中,并没有提及一整个生态的整体考虑。
但我所说技术方面的内容,远比我现在讲给你们听的内容要复杂的多。每一个单项里都会包含大量工作人员相应的工作成果,确实不是短期内可以去实现的。
但好在我们bg团队的目标明确啊。”
“梦想还是要有的,万一实现了呢”宁子默撇着嘴挑了挑眉毛。
这个轻挑的动作,在katix三人组的眼里却郑重如斯。
办公室里鸦雀无声,除了必要的眨眼,好半天都没有一个人有多余的动作。
大概是忍受不住这种沉重的气氛,霍夫曼赶忙站起身来,去门口招呼人帮忙添上几杯咖啡。
霍夫曼也算看出来了,宁子默今天多少都带点“火气”,所以平日里一沾即过的风格变得凌厉无比。接连的前瞻和技术开诚布公地公示出来,定然让他斯坦福大学的三位学弟有些承接不住。
待人送来新的咖啡,霍夫曼才赶忙招呼道,“来,先喝点东西消化消化。宁原来在倍宝带团队的时候就是这样的风格,每一次他有一个新的方向时,总是向着那个方向勇往直前。
这么两年来,我从未见他失败过。但为什么不会失败,相信你们刚刚也都看到了。那是因为他在每一个细节的把控方面都已经做到了极致,这才有我们步步为营的每一次胜利。”
赛普明显是三人里边拿主意的那一位,霍夫曼话音刚落,赛普就点了点头。
虽然一直都是那位年轻的宁在说话,但是赛普总是觉得自己的嗓子有些痒。
咳嗽一声看了看身边的同伴,见他们都轻轻地点了点头,赛普清了清嗓子说到,“宁,我们已经清楚地看到你描绘的未来,也如同霍夫曼学长说的那样,明白你在计划的每一个细节都十分重视。
我想,经过你这一番讲述后,我们就只剩下一个问题。那就是,如果我们加入bg,那么在前期这段时间,我们能为bg做些什么”
成了
没有多余的感叹。
宁子默在做之前就笃定会是这样的结果,降维打击不仅仅是让人屈服,其实还可以是用能力去征服别人。
要不然人马星的舰队开到地球的时候,为什么总有人类想要成为三体人呢
当然,赛普他们并不是这样的心思,而是他们被自己说的有些找不到自己的方向了。
既然别人都已经愿意加入团队,宁子默的态度自然温和不少
“对于整个bg来讲,从哑虎搜索引擎部门跳槽而来的陆奇先生有足够的能力去掌控大局。但在细枝末节方面,我们需要足够多的专家来实现技术。
和峰语一样,bg也有自己的arank算法。但目前搜索引擎的优化方面,我们需要专家。这就是我让霍夫曼帮我物色人选的主要目的,而你们就是霍夫曼为我们bg物色的技术专家。所以,我想要听听你们在搜索领域有哪些特长。”
尽管知道katix的技术核心是一套包含三个技术的算法,就算知道这三个技术是二次外推,bockrank和自适应arank。宁子默依旧要做出足够的姿态。
赛普点了点头,笑着说,“好的,宁,那么由我来向你详细的介绍一下我们的katix。”
搜索引擎并不是宁子墨擅长的范围,但前世对峰语的崇拜驱使宁子默对峰语的技术有过相当的研究,这些积累的搜索知识让宁子默在和赛普的沟通中并不吃力。
katix是赛普三人基于峰语核心arank技术的新兴搜索排序技术,它基于个人兴趣的搜索结果排序方式,可以讲搜索引擎速度提升到原有速度的五倍。
它有三项核心技术
就算知道这些,宁子默细细听完就觉得自己淡定不起来了。
也难怪前世里的峰语在2004年会有飞速的发展,完全是因为收购并消化了katix的核心技术,而katix对峰语搜索的提升是显而易见的。
猜你喜欢