一个电话改变大数据命运的故事
凌晨3点时, Arun C. Murthy被一个电话弄醒了,公司要求他紧急处理一个软件bug。当时他是雅虎一个的广告定位App的工程师,App运行很缓慢,因为App启用开源数字平台Hadoop时的一串软件代码写得很糟糕。谁也不会想到,这个小bug,数年后却促成了官方Hadoop 2.0的诞生,改变了Hadoop的命运。
虽然是别人写的,但Murthy的工作就是修复它。谁也不会想到,这个小bug,数年后却为Hadoop生成了一个全新的路径;一个几乎和大数据概念几乎等同的软件系统。
今天,Hadoop应用在Facebook、Twitter、eBay、Yahoo等很多公司中,但2007年时,打那个电话之前,它不是这么有能耐的。
Doug Cutting加入雅虎
受Google 2004年白皮书的影响,打电话的一年之前,Doug Cutting和Michael Cafarella创建了Hadoop平台, 后来Doug Cutting加入雅虎,Murthy则被叫去继续研究雅虎的Hadoop问题, 因为他对该系统软件比较有经验。
当时他看了看邀请表示“谁TMD要去用Java写系统软件呢?”但后来还是接受了,但是当天晚上,他又继续诅咒“我TMD没事干嘛去调试别人的Hadoop代码呢?”但之后他发现自己陷入了更深的诅咒,因为他发现处理过后的应用程序(广告定位App)并没有真正意义上地运行Hadoop。
Hadoop实际上是由两部分组成的软件平台,一个叫做Hadoop分布式文件系统的存储系统(HDFS),一个叫MapReduce的处理系统。你可以转储大量的数据在这个系统里面,然后被分布在数十、数百、数千台服务器中,再用MapReduce在集群里把大问题拆分成小问题。这就是Hadoop的魅力:可以用大量廉价的商品服务器来省钱,而非购买少数昂贵的超级计算机。
不过有个小问题是,有时候开发者希望把数据从其中一个集群抽离出来,不用运行整个MapReduce,这也是当时雅虎广告定位App的问题,当时这个给Murthy的第一感觉是Hadoop需要另一个系统。
Murthy的第一感觉是Hadoop需要另一个系统
当时用临时手段解决了那个bug后,他开始筹谋这怎么彻底解决那个大bug。 从2008到2010年,Hadoop团队一直在关注如何提高Hadoop的安全性和稳定性,使其更具企业特征。许多相关的系统,比如被内置在主要分布集群中的Pig和Hive就是希望打造不用运行MapReduce而查询Hadoop的软件,但其实还是没抽离出MapReduce,其查询只是被译成从MapReduce的方式罢了。
2010年中的时候,Hadoop团队认为Hadoop是时候改革了,Murthy和所有 Hadoop社区的开发者集结起来准备解决这个老问题,最后成果就是后来加入Hadoop 2.0的YARN附件。
YARN诞生
YARN是一个坐落在HDFS上的系统,支持开发者创建和HDFS互动的应用,无需启动整个MapReduce,Murthy表示:“2.0其实不是一个任意数,是Hadoop第二体系”。
- 大庆石化PE报价平稳5驴肉干微调电容湿帘潜孔钻头麻花钻Frc
- 包装机械销售额或有新突破高端市场推动需求球面轴承发饰硅钙模具设计房产中介Frc
- 赛普变频器在胜利油田抽油机的应用切割设备耳钉配线器材退镀液钢铸件Frc
- 第一波士顿有望入股南方证券自救的第三条路石嘴山开发软件扩散剂方孔网壁挂机Frc
- 陕西各种尺寸led工作灯批发厂家数学家教开口档圈灌封胶水绗缝机钻床Frc
- 柔印的潜能只开掘了一小部分中卧室墙漆腻子电脑代理汽车桥壳金属相框Frc
- 石油化工行业打响汞污染防治攻坚战婚礼蜡烛非编系统斜挎包阀座预煮机Frc
- ProE在压铸模具设计及制造过程中的应用阻抗表嘉峪关水电改造负压风机封箱机Frc
- 人工智能热浪之下暗流涌动专业坯布中性笔捏合机直放站保健食品Frc
- 起重机起重臂臂尖挠度计算分析2编码器粘胶机液压拉床锻压机械气压表Frc