加入收藏 | 设为首页 | 会员中心 | 我要投稿 草根网_福州站长网 (https://www.0591zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

雅虎开放源搜索引擎,雅虎的大数据处理和服务引擎

发布时间:2022-10-11 10:11:58 所属栏目:大数据 来源:
导读:  自从我们2006年开源Hadoop,雅虎——现在,誓言,一直致力于开放大数据基础设施更大的开发者社区。 今天,我们正在另一个在这个方向上迈出的重要一步胡蜂属,雅虎的大数据处理和服务引擎,开源在GitHub上。
  自从我们2006年开源Hadoop,雅虎——现在,誓言,一直致力于开放大数据基础设施更大的开发者社区。 今天,我们正在另一个在这个方向上迈出的重要一步胡蜂属,雅虎的大数据处理和服务引擎,开源在GitHub上。
 
  胡蜂属体系结构概述
 
  构建应用程序越来越多意味着处理大量的数据。 虽然开发人员可以使用Hadoop堆栈存储和批处理大数据,和风暴stream-process数据,这些技术与服务结果不帮助最终用户。 大规模服务是具有挑战性的,尤其是当有必要迅速做出计算数据,同时用户等待,与应用程序功能搜索、推荐和个性化。
 
  通过释放胡蜂属,我们方便任何人构建应用程序可以计算响应用户请求,在大型数据集,在实时和互联网规模——能力,到目前为止,已经触手可及的只有少数大型企业。
 
  服务通常需要通过ID查找内容超过或从一个模型计算几个数字。 许多应用程序需要计算在大型数据集服务时间。 两个著名的例子是搜索和建议。 提供搜索结果或向用户推荐的文章列表,你需要找到所有匹配的项查询,确定好每一项特定的请求使用相关性/推荐模型,组织匹配来删除重复值,添加导航艾滋病,然后向用户返回一个响应。 由于这些计算取决于请求的功能,如用户的查询或利益,它不会做前期的计算结果。 它必须在服务完成时间,因为用户是等待,必须快速完成。 结合快速完成上述操作的能力来执行他们的大量数据需要大量的基础设施——分布式算法,数据分布和管理,高效的数据结构和内存管理等等。 这是胡蜂属提供包装整齐,易于使用的引擎。
 
  拥有超过10亿用户,我们目前使用在许多不同的誓言胡蜂属品牌——包括Yahoo.com、雅虎新闻,雅虎体育,雅虎财经,雅虎双子座,Flickr,和其他人——过程和数十亿的日常服务请求响应搜索查询时,在亿万文件,提出建议,并提供个性化的内容和广告,这些只是其中一部分的用例。 事实上,胡蜂属流程和服务内容和广告几乎90000次每秒几十毫秒的延迟。 Flickr上,胡蜂属执行关键字和图像搜索的规模几百每秒查询在数百亿图像。 此外,作出直接贡献的胡蜂属我们公司的收入来源,每天超过30亿个本地广告请求通过雅虎双子座,以每秒140 k请求的峰值(每个誓言内部数据)。
 
  胡蜂属,我们的团队构建的应用程序:
 
  选择使用sql的查询和文本搜索内容项
 
  组织所有匹配生成数据驱动的页面
 
  等级匹配的手写或machine-learned相关性模型
 
  服务结果低点毫秒的响应时间
 
  在实时写入数据,每个节点每秒数千次
 
  生长、收缩、服役时,重新配置集群和写数据
 
  实现速度和规模,胡蜂属分布数据和计算在许多机器没有任何单一的主人是一个瓶颈。 传统的应用程序工作的地方获取数据到一个无状态层进行处理,胡蜂属相反推计算数据。 这包括管理集群的节点与背景的重新分配数据的机器故障或增加新产能,实现分布式低延迟查询和处理算法,处理分布式数据一致性,和更多。 大量的辛苦工作!
 
  胡蜂属背后的团队,我们一直致力于开发搜索和服务功能自从建立alltheweb.com,后来被雅虎收购。 在过去的几年中我们从头重写大部分引擎将我们的经验在现代技术堆栈。 胡蜂属大范围和代码行数比任何我们所发布的开源项目。 现在一直在交互了雅虎最大的和最关键的系统,我们很高兴地向世界释放它。
 
  胡蜂属让应用程序开发人员能够传输数据和模型任何规模的服务系统,使最终的计算请求时间。 这通常以较低的成本生产更好的用户体验(购买和运行硬件)和复杂性而并不是预先计算要求的答案。 而且它允许开发人员工作在更互动的方式实时导航和与复杂的计算,而不必启动离线工作和检查后的结果。
 
  胡蜂属可以前提或在云中运行。 我们提供两个码头工人胡蜂属图像和rpm包,以及指导上运行他们自己的笔记本电脑或作为一个AWS集群。
 
  我们会跟进这个最初的声明在我们的系列文章博客与胡蜂属展示如何构建一个真实的应用程序,但你可以现在开始的入门指南在我们的综合文档。
 
  管理分布式系统并不容易。 我们努力使它容易对胡蜂属开发和运行应用程序大数据引擎,这样您就可以专注于开发特性,利用实时计算在大型数据集的能力,而不是管理集群和数据的细节。 你应该能够得到一个应用程序启动并运行在不到十分钟的文档。
 

(编辑:草根网_福州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!