小河| 拉萨| 成武| 池州| 蚌埠| 柳州| 伊金霍洛旗| 曲水| 务川| 昌乐| 浙江| 容县| 宁海| 富宁| 沾化| 克拉玛依| 淮阳| 镇江| 嘉鱼| 岱山| 泾川| 美姑| 潜江| 靖州| 响水| 镇坪| 林西| 玉山| 运城| 宾川| 陆河| 叶城| 冀州| 湖南| 共和| 金寨| 高密| 河曲| 安义| 北川| 精河| 忻城| 汾阳| 屏南| 岳西| 青县| 西华| 当雄| 嘉善| 大田| 双柏| 岳阳县| 新巴尔虎左旗| 隆德| 桂东| 宁夏| 会宁| 辽阳县| 分宜| 马鞍山| 醴陵| 金川| 确山| 西乌珠穆沁旗| 大名| 罗城| 桐城| 从化| 波密| 围场| 察布查尔| 宁安| 长武| 绥德| 锦屏| 株洲县| 广灵| 景县| 和田| 双江| 翼城| 凤城| 额尔古纳| 康定| 沧州| 邓州| 名山| 青州| 姚安| 公安| 米泉| 大丰| 新民| 阿鲁科尔沁旗| 大关| 恭城| 如皋| 石棉| 孙吴| 土默特左旗| 武穴| 蕲春| 仪征| 甘肃| 任丘| 鄯善| 噶尔| 东胜| 代县| 徽州| 荥经| 成都| 永修| 遂平| 遂川| 大安| 尉氏| 驻马店| 绥棱| 洪泽| 泗阳| 南川| 南芬| 兖州| 乾县| 隆化| 西峰| 卢龙| 罗田| 吴起| 锡林浩特| 新化| 猇亭| 萨嘎| 启东| 名山| 库伦旗| 蓝田| 右玉| 樟树| 大余| 黟县| 大庆| 云溪| 靖西| 洱源| 北戴河| 无为| 德保| 芜湖市| 灵川| 晋宁| 聂拉木| 如皋| 兰州| 丰都| 繁昌| 上饶市| 南岔| 沂源| 宁海| 夏津| 安吉| 眉县| 蒲江| 碾子山| 雁山| 萨嘎| 郏县| 汉南| 三水| 波密| 社旗| 桂林| 博乐| 抚顺县| 高县| 荆门| 绍兴县| 句容| 西安| 堆龙德庆| 杜尔伯特| 昌黎| 江苏| 维西| 枝江| 康马| 印台| 新晃| 崇义| 子洲| 兴安| 潘集| 江宁| 涞水| 汾阳| 方正| 讷河| 阿荣旗| 黄岩| 平陆| 水富| 和县| 江山| 金湖| 洛浦| 阜康| 天山天池| 宁陕| 衡山| 荆州| 灞桥| 北京| 德昌| 化隆| 华容| 岗巴| 新郑| 宣城| 马边| 山海关| 卢氏| 普格| 南京| 敦化| 伊川| 信阳| 襄汾| 东营| 黄山市| 元坝| 吉木乃| 建阳| 寻乌| 衡阳市| 黟县| 玛纳斯| 翼城| 舒兰| 海口| 香河| 雁山| 南城| 阜康| 镇安| 新津| 梓潼| 白城| 诏安| 嘉善| 新密| 共和| 毕节| 定兴| 太和| 永和| 藁城| 邳州| 汝州| 泰来| 蓬溪| 南雄|

萍乡新闻--江西频道--人民网

2019-05-26 22:23 来源:京华网

  萍乡新闻--江西频道--人民网

  这是PIZZAPINO在宁波的第九年,来自意大利那不勒斯的味道。陕菜作为中国最古老菜系之一,里面藏了许许多多的历史和文化。

茶,始于神农时代,与中华文化相伴已走过数千年的历史长河;源远流长的中国茶文化,糅合了儒、道、佛诸派思想,独成一体,历久弥新,生生不息。走过百年的牛肉拉面,成为了家喻户晓的名吃。

  美食健康化,消费平民化“养生”成为热点话题,煲仔饭和炖汤也更健康养生,米大娘顺应消费者的消费行为趋势,不仅米饭更加香甜,而且配菜也都搭配合理,成为注重养生的上班族的最佳选择,就像妈妈总是给我们做最健康最美味的饭一样,米大娘也是把这种理念诠释的淋漓尽致,而最重要,米大娘消费更加平民化,一碗饭,一份汤,消费价格低,体验度却高,这也是米大娘的优势。我们认为,海底捞品牌在中式餐饮行业已经形成一种独特的文化现象,成为极致服务体验和就餐体验的代名词。

    比如,建设银行在2016年4月1日起开始为龙卡信用卡银联芯片卡开通小额免密免签服务,单笔境内限额是300元,单卡单日累计交易限额境内为1000元。不久前,一则“让世界尝尝思念的味道”的文章在朋友圈热传,《思念美国工厂正式开工!》一文中写道:思念美国工厂在2017年11月8日正式开工生产,产品预计将于圣诞节期间在美国的超市与消费者见面。

来自南通的上千种农产品在上海农展馆亮相,向上海展示“南通味道”。

  01几度创业,最后选择开餐馆余震彥生于1971年,是湖北汉川人。

  一直以来,金领冠都坚持严苛标准,严格执行伊利质量管理“三条线”,即企标线在国标线基础上提升50%,内控线在企标线基础上再提升20%,用高于国标线70%的标准来要求自己。清明前后,万物生长,美好的春光挠得人出游踏青的心直痒。

  而且为方便广大消费者,切实维护其合法权益,茅台还在全国各大中城市还设立了免费鉴定点开展便民鉴定服务和真假酒培训活动。

  他们的共同之处在于都对五粮液有着特殊的感情,或许在有的人眼中,酿酒是一个简单重复、枯燥乏味且异常辛苦的工作,但在他们眼中,这是生长在自己血液中的东西,是值得用时间,花精力去热爱、去坚守的事情。1982年,国家把饮料纳入“国家计划管理产品”,可口可乐开始在北京市场进行内销。

  上海2017年12月7日电/美通社/--今日宣布,与全球领先的酒店预订网站agoda(安可达)签署全面合作协议,在agoda简体中文网站已受理银联卡的基础上,明年4月底前将实现其所有语种网站和移动客户端APP支持银联卡,境内外持卡人均可用银联卡享受更加安全、优惠的线上支付体验。

  原标题:与世为敌的特氏算盘美国总统特朗普终于扣动了贸易战的扳机,但枪口却并未如外界猜测的那样只瞄准某个国家,这一次特朗普扫射了整个世界。

  并且毫不吝啬的用各种语言来形容它:“个大肥美”、“肉质Q弹紧致“、“生态散养”、“健康美味”……而这款网红皇卫鸡除了征服国人以外,还收到不少外国人的好评。中国银联2日发布“”假日交易数据称,4月29日至5月1日小长假期间,银联网络交易总金额达到6810亿元,与去年相比,今年“五一”假日增长33%。

  

  萍乡新闻--江西频道--人民网

 
责编:
您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
雷锋网 读懂智能&未来
人工智能 正文
发私信给程弢
发送

0

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

本文作者:程弢 2019-05-26 14:03
导语:从这次发布的测试结果来看,TPU似乎已经超出了业界的预期,但是藏在这一芯片背后的内部架构究竟有什么秘密呢,我们从Jouppi此前发布的论文当中,可以找到答案。
南通首批5家上海市外延蔬菜生产基地集中参展,提供放心、质优、价平的时令蔬菜。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

在谷歌发布TPU一年后,这款机器学习定制芯片的神秘面纱终于被揭开了。

昨日,谷歌资深硬件工程师Norman Jouppi刊文表示,谷歌的专用机器学习芯片TPU处理速度要比GPU和CPU快15-30倍(和TPU对比的是英特尔Haswell CPU以及Nvidia Tesla K80 GPU),而在能效上,TPU更是提升了30到80倍。

从这次发布的测试结果来看,TPU似乎已经超出了业界的预期,但是藏在这一芯片背后的内部架构究竟有什么秘密呢,我们从Jouppi此前发布的论文当中,可以找到答案。

据雷锋网(公众号:雷锋网)了解,早在四年前,谷歌内部就开始使用消耗大量计算资源的深度学习模型,这对CPU、GPU组合而言是一个巨大的挑战,谷歌深知如果基于现有硬件,他们将不得不将数据中心数量翻一番来支持这些复杂的计算任务。

所以谷歌开始研发一种新的架构,Jouppi称之为“下一个平台”。Jouppi曾是MIPS处理器的首席架构师之一,他开创了内存系统中的新技术。三年前他加入谷歌的时候,公司上下正在用CPU、GPU混合架构上来进行深度学习的训练。

Jouppi表示,谷歌的硬件工程团队在转向定制ASIC之前,早期还曾用FPGA来解决廉价、高效和高性能推理的问题。但他指出,FPGA的性能和每瓦性能相比ASIC都有很大的差距。他解释说,“TPU可以像CPU或GPU一样可编程,它可以在不同的网络(卷积神经网络,LSTM模型和大规模完全连接的模型)上执行CISC指令,而不是为某个专用的神经网络模型设计的。一言以蔽之,TPU兼具了CPU和ASIC的有点,它不仅是可编程的,而且比CPU、GPU和FPGA拥有更高的效率和更低的能耗。

TPU的内部架构

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

该图显示了TPU上的内部结构,除了外挂的DDR3内存,左侧是主机界面。指令从主机发送到队列中(没有循环)。这些激活控制逻辑可以根据指令多次运行相同的指令。

TPU并非一款复杂的硬件,它看起来像是雷达应用的信号处理引擎,而不是标准的X86衍生架构。Jouppi说,尽管它有众多的矩阵乘法单元,但是它GPU更精于浮点单元的协处理。另外,需要注意的是,TPU没有任何存储的程序,它可以直接从主机发送指令。

TPU上的DRAM作为一个单元并行运行,因为需要获取更多的权重以馈送到矩阵乘法单元(算下来,吞吐量达到了64,000)。Jouppi并没有提到是他们是如何缩放(systolic)数据流的,但他表示,使用主机软件加速器都将成为瓶颈。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

256×256阵列缩放数据流引擎,经过矩阵乘法积累后实现非线性输出

从第二张图片可以看出,TPU有两个内存单元,以及一个用于模型中参数的外部DDR3 DRAM。参数进来后,可从顶部加载到矩阵乘法单元中。同时,可以从左边加载激活(或从“神经元”输出)。那些以收缩的方式进入矩阵单元以产生矩阵乘法,它可以在每个周期中进行64,000次累加。

毋庸置疑,谷歌可能使用了一些新的技巧和技术来加快TPU的性能和效率。例如,使用高带宽内存或混合3D内存。然而,谷歌的问题在于保持分布式硬件的一致性。

TPU对比Haswell处理器

在和英特尔“Haswell”Xeon E5 v3处理器来的对比中,我们可以看到,TPU各方面的表现都要强于前者。

在Google的测试中,使用64位浮点数学运算器的18核心运行在2.3 GHz的Haswell Xeon E5-2699 v3处理器能够处理每秒1.3 TOPS的运算,并提供51GB/秒的内存带宽;Haswell芯片功耗为145瓦,其系统(拥有256 GB内存)满载时消耗455瓦特。

相比之下,TPU使用8位整数数学运算器,拥有256GB的主机内存以及32GB的内存,能够实现34GB/秒的内存带宽,处理速度高达92 TOPS ,这比Haswell提升了71倍,此外,TPU服务器的热功率只有384瓦。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

除此之外,谷歌还测试了CPU、GPU和TPU处理不同批量大小的每秒推断的吞吐量。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

如上图所示,在小批量任务中(16),Haswell CPU的响应时间接近7毫秒,其每秒提供5482次推断(IPS),其可以实现的最大批量任务(64)每秒则可以完成13194次推断,但其响应时间为21.3毫秒。相比之下,TPU可以做到批量大小为200,而响应时间低于7毫秒,并提供225000个IPS运行推理基准,是其峰值性能的80%,当批量大小为250,响应时间为10毫秒。

不过需要注意的是,谷歌所测试的Haswell Xeon处理器似乎也不能完全说明问题,英特尔Broadwell Xeon E5 v4处理器和最新的“Skylake”Xeon E5,每核心时钟(IPC)的指令比这款处理器提升了约5%。在Skylake是28核,而Haswell为18核,所以Xeon的总体吞吐量可能会上升80%。当然,这样的提升与TPU相比仍有差距。

最后雷锋网需要强调的是,TPU是一个推理芯片,它并非是要取代GPU,可以确定的是,TPU与CPU一起使用对训练分析更加有益。但对于CPU制造商而言,如何研发出像ASIC一样兼顾性能和能效的芯片是现在以及未来要做的。

可以确定的是,谷歌已经逐渐在自己的数据中心部署TPU,但是上述测试数据只是理论结果,实际应用表现如何?我们还不得而知。

Via nextplatform,雷锋网编译

雷锋网版权文章,未经授权禁止转载。详情见转载须知

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?
分享:
相关文章

文章点评:

表情

略懂技术的小编

关注一切有未来感的产品及技术!
当月热门文章
最新文章
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
江苏省练湖农场 郁南县 净月大街 万幸庄三马路 昌路
林周 卫津南路西 陈勇 兰洋镇 吾都