移动芯片 支持opencl的显卡 opencl有什么实际的应用场景

<div id="click_content_aid_
<div id="favrite_content_aid_
AMD驱动路线图更新:Kaveri已支持部分OpenCL 2.0特性
AMD驱动路线图更新:Kaveri已支持部分OpenCL 2.0特性
11:28&&|&&作者:
&&|&&关键字:,,,,
Kaveri APU发布之时驱动程序并不支持HSA,现在AMD更新了驱动程序路线图,新驱动中Kaveri APU已经支持部分OpenCL 2.0特性了。
对AMD来说,1月中旬发布的Kaveri APU不仅仅是一款架构、工艺升级的新处理器这么简单,Kaveri是首款支持HSA异构运算的APU,支持AMD提出的、hQ异构队列,。不过Kaveri
APU发布之时驱动程序并不支持HSA,现在AMD更新了驱动程序路线图,新驱动中Kaveri APU已经支持部分OpenCL 2.0特性了。称,今天AMD刚刚发布了一个beta版驱动程序,Kaveri APU在新驱动中已经支持OpenCL 2.0功能了。原本Kaveri只是遵循OpenCL
1.2规范的,这个规范中并没有共享内存的扩展,OpenCL 2.0中才有相关的内存,目前AMD还没有完整的OpenCL
2.0驱动,因此在这个驱动中首先提供了部分OpenCL 2.0规范中的新功能。支持OpenCL的新功能只是Kaveri支持HSA的一部分,未来它还会通过HSAL语言及HSA运行时(runtime)来支持HSA软件栈。HSA软件堆栈可以支持高级编程语言,简化现有的HSA开发工作。今年Q2季度,AMD首先会在Linux平台上推出beta版HSA软件栈。另外,这个驱动发布时AMD应该还会推出面向、面向嵌入式市场的Bald
Egale(秃鹰)的处理器,他们都是基于Kaveri APU的不同市场分支,在Linux市场扮演着重要角色。Linux上的HSA软件栈将促使编译器作者及低级库开发者开始为HSA开发软件。目前官方的HSA运行时API还没有最终完成,这次发布是基于原型规格的。不过原文认为这次的原型驱动会很接近最终规范,开发者不必担心这个问题。JAVA支持HSA的路线图大多数开发者不会对基础HSA软件栈感兴趣,他们更喜欢高级编程语言和工具,AMD今年就会发布几款支持HSA的编程语言和工具。首先是Java Aparapi库,目前的Java
Aparapi库是基于OpenCL的,而未来发布的版本将会针对支持HSA的系统优化。目前Java Aparapi库已经在开发、测试中,将在HSA软件栈发布不久后推出。今年某些时候,Multicoreware会发布Linux平台上后端兼容HSA的C++AMP。此外,AMD还提到正在与SUSE联合开发GCC扩展,可将 C/C++/Fortran OpenMP代码编译到HSA代码,不过原文表示还不清楚支持的GCC版本、OpenMP版本。最后,AMD还在努力把Kaveri上的各种硬件功能比如hUMA、hQ推广到各种编程语言及工具上,今年会看到Linux平台上HSA软件栈以及相关的工具、编程语言稳定下来,特别是在服务器及嵌入式市场上。Windows平台上,至少会看到基于OpenCL的Kaveri硬件功能的实现,其他功能的支持会陆续到来。PS:上面提到的这个支持部分OpenCL 2.0驱动的地址在,不过原文的连接支持OpenCL的介绍页面,实际下载页面是。另外,这个驱动要求很特别,需要A10-7850K、华硕A88X-Pro主板和8GB内存,不是想用就用的。
关注微信号expkf01,第一时间获知精彩活动和原创科技资讯。
第一时间获知
精彩活动和原创科技资讯
微信号expkf01
本文读者还喜欢
想不1样买6800K去啊还便宜,就你出那点资色(出的钱)还想东食西宿?
傻多速的可以去光顾对门GT3eHD5200pro---走好不送
(你可匿名或登录后发表评论。没有帐号可,或使用和直接登录)
非著名编辑,自认为是个理性、有内涵的观察者,实则腹黑、心不黑,坚信阳光普照大地,只待涤荡眼前的黑暗。
扫一扫右边的二维码
关注超能网微信账号
双十一都有些什么值得买买买?
讯景RX 480 4G显卡1449元~
预热双十一,10月影驰日
讯景显卡送《守望先锋》移动平台芯片组概况_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
移动平台芯片组概况
上传于||文档简介
&&移&#8203;动&#8203;平&#8203;台&#8203;芯&#8203;片&#8203;组&#8203;概&#8203;述&#8203;,&#8203;如&#8203;m&#8203;s&#8203;m&#03;2&#03;0&#8203; &#8203;m&#8203;s&#8203;m&#03;2&#03;5&#8203; &#8203;等&#8203;等&#8203;。
阅读已结束,如果下载本文需要使用2下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩6页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢Andriod(16)
著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:蓝山sd
链接:/question//answer/
来源:知乎
在桌面系统和大规模并行计算领域被普遍使用的一种底层API。最近一段时间,主流的芯片厂商的旗舰或准旗舰芯片都开始支持OpenCL1.1或者1.2标准,包括高通,三星, 联发科,Rockchip等厂商的芯片,都可以找到OpenCL的支持。
目前只有NVIDIA自己出的基于Tegra K1芯片的设备(NVIDIA Shield)支持CUDA,所以支持的面比较窄。
3. RenderScript (RS)
Google力推的异构编程,宗旨是由平台帮你选择运行的处理器,也就是说你是不知道你的程序跑在CPU还是GPU上的,这是由系统的驱动来决定的。想法是美好的,可现实是开发者并不买RS的帐, 大家觉得RS的性能不可控,灵活性太差,其文档之缺乏也被人诟病;此外,芯片厂商对于RS的优化都还普遍处于比较低阶的水平,这些都导致了RS在实际应用中很少被用到。
由于OpenCL的普及程度,以下部分只针对OpenCL展开。
目前支持OpenCL的设备和芯片
1. 支持OpenCL的GPU
高通几乎全系的GPU, 包括但不限于以下GPU (Adreno 305, 320, 330, 405, 420, 430, 530 ...)
ARM Mali的6系和7系GPU, 比如T628, T760
2014年以来较新的Imagination PowerVR GPU,比如G6430
2. 支持OpenCL的芯片。以下是一个很粗略地列举了主要的支持OpenCL的芯片。
高通8064, 8974(骁龙800,801), 8084(骁龙805), 8994(骁龙810)等三星 Exynos猎户座
(内置ARM Mali GPU)联发科 MT6752 (内置ARM Mali T760 GPU)瑞芯微 RK3288 (内置ARM Mali GPU)
3. 支持OpenCL的手机和平板。 这个就数不胜数了,下面只随手给出几个例子以供参考。(注意:Google Nexus系列的手机或平板,虽然硬件上支持OpenCL,但因为删掉了OpenCL的驱动程序,所以基本都不支持OpenCL;&#20540;得注意的是,据国外blog上报道,可以将相应的OpenCL驱动推送回设备以重新开启OpenCL的支持, 详见)
三星 Galaxy S4, S5, S6, Note 3, Note 4LG G2, G3, G4HTC One M7, M8, M9小米使用高通芯片的手机和平板魅族M1 Note台积电P90HD等等等等。。。。
如果不确定手头的设备是否支持OpenCL, 可以使用OpenCL-Z Android进行检测,这款软件可以显示详细的OpenCL的设备信息,同时运行micro-benchmark检测设备的计算能力。下载链接:
Google Play
需要掌握的知识:
1. 简单的GPU基本知识
2. OpenCL并行程序设计
3. Android NDK知识
4. Android JNI接口的编写
5. 简单的Android程序开发知识
开发的步骤(篇幅所限,这里只是步骤的精简版本,只阐述操作,不进行解释):
1. 编写OpenCL的C/C&#43;&#43;程序实现GPU的核心计算代码
2. 用Android NDK编译之前写的C/C&#43;&#43;代码。这一阶段可以在纯C/C&#43;&#43;环境下工作,可以编写main函数测试实现的功能,用NDK将代码编译为可执行的代码(BUILD_EXECUTABLE), 然后用ADB将可执行程序推送到设备上运行。运行可执行程序要求设备具有root权限,如果没有root权限,可以通过Native Program Launcher (,可能需要翻墙) 这一工具在设备上执行二进制代码。
3. 上一阶段测试结束,功能基本正常。开始编写JNI接口。
4. 开始编写Android应用程序,使用JNI封装native函数。编译C/C&#43;&#43;代码成动态链接库。
5. 在Android程序里,以静态方式加载上一步编译的动态链接库。
6. 在需要的地方(比如点击按钮事件),调用相应的native函数,即可实现相应的功能。
以上步骤可能看着有些抽象,不用担心,跟着下面几个教程走一边,你就会明白每一步在做什么。
推荐几个教程:
1. Sony Mobile的OpenCL教程(英文):
2. Intel的Android上的OpenCL教程(中英文版都有):
3. CSDN的一篇博文:
这几个教程都是有非常详细的说明,并且附有源代码,非常适合入门。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:40827次
排名:千里之外
转载:187篇
(1)(3)(3)(6)(13)(16)(2)(18)(37)(6)(23)(39)(16)(3)(2)(5)(1)最强移动芯片 高通骁龙820详细解析
(原标题:最强移动芯片 高通骁龙820详细解析)
本月10日,高通在美国圣地亚哥总部召开媒体沟通会,随后北京时间11日下午,在中国北京瑰丽酒店同步召开亚洲区媒体沟通会,预览了下一代旗舰SoC&Snapdragon骁龙820的性能。亚洲区媒体沟通会我们先来看一下高通820原型机的跑分,安兔兔6.0跑分高达131648。此前三星7420跑分89499(Pro5),麒麟950跑分92746(Mate8),高通810跑分80998(MI&NOTE&Pro),可见性能提升巨大。跑分已过13万此前跑分最高为苹果A9X处理器对比上代ARM&Cortex-A57/A53公版IP的810,使用三星最新一代14nm&FinFET&LPP工艺的骁龙820大体来讲有六大改进:骁龙810与骁龙820对比1、CPU采用14nm&FinFET&lpp工艺,由三星制造。同时升级为四核心ARMv8自主兼容架构的Kryo,主频分别为2x2.150GHz+2x1.593GHz;支持1866MHz&LPDDR4内存,&内存控制器带宽上升至28.8GB/s。2、GPU升级为Adreno&530,ALU数量大幅提升,完整支持OpenCL&2.0通用计算和CPU/GPU统一内存寻址,支持4K2K分辨率60fps&10bit高清视频的编解码,性能相较上代提升40%,功耗降低40%。3、DSP升级为Hexagon&680,对比一些使用Cortex-M系列的协处理器性能/功耗比高出一等,新的Spectra&ISP最大支持2800万像素摄像头,照片后期处理更上一层楼。4、内置基带MODEM升级为高通X12,支持LTE-Advanced&Cat.13(上行)/Cat.12(下行),带宽可达600Mbps。5、超声波指纹识别+QuickCharge&3.0。高通820支持超声波指纹,可以让手机在不单独添加指纹模块的基础上,直接通过屏幕实现指纹识别,而且精度更高,宽容度更大,湿手也能轻松解锁。同时全新的快充技术,效率提升38%,高通方面称只需半小时,就可以提供一天的续航电量。6、三频WiFi,支持全新802.11ad。GFXBench&Manhattan&ES&3.0(Offscreen)Basemark&OS&II&2.0&OverallKraken&1.1(Stock&Browser)WebXPRT&2015(Stock&Browser)GFXBench&T-Red&HD(Offscreen)图Google&Octane&V2(Stock&Browser)
配合的套片以及内置的WiFi机能最大支持下一代60GHz频段标准802.11ad。实际应用中,仅凭未优化的浏览器,在Web测试中骁龙820仅次于苹果iPhone&6s&Plus中的A9。除了A9之外,骁龙820领先于任何市面上的SoC如Exynos&7420等。(Anandtech估测,使用A72的Kirin&950和Helio&X20与Exynos&7420旗鼓相当)在GPU性能上,骁龙820一马当先,Adreno&530&GPU甚至超过了A9堪称变态的PowerVR&GT7600。
本文来源:中关村在线
关键词阅读:
不做嘴炮 只管约到
跟贴热词:
文明上网,登录发贴
网友评论仅供其表达个人看法,并不表明网易立场。
热门产品:   
:        
:         
热门影院:
用微信扫描二维码分享至好友和朋友圈采用OpenCL标准实现FPGA设计在可编程技术发展的最初阶段,可编程能力出现了两个极端。一个极端的代表是单核CPU和DSP单元。这些器件使用含有一系列可执行指令的软件来进行编程。对于编程人员,在概念上以连续的方式来开发这些指令,而高级处理器能够对指令重新排序,在运行时从这些连续程序中提取出指令级并行处理操作。作为对比,可编程技术另一极端的代表是FPGA。通过开发可配置硬件电路对这些器件编程,完全并行执行。使用FPGA的设计人员实际上是大规模开发粒度非常精细的并行应用。多年以来,这两个极端同时存在,每一类型的可编程功能适用于不同的应用领域。但是,最近的技术发展趋势表明,有更好的技术同时实现了可编程和并行处理操作。软件可编程器件的第二种趋势是复杂硬件的出现,从顺序程序中提取出指令级并行处理操作。单核体系结构输入指令流,在器件中执行它们,这些器件会有很多并行功能单元。处理器硬件的很大一部分必须专门用于从顺序代码中动态提取出并行处理操作。此外,硬件还会尝试去补偿存储器延时。一般而言,编程人员开发程序时没有考虑处理器的底层存储器结构,好像只有大规模的统一快速存储器。相比较而言,处理器必须处理实际延时,以及与外部存储器的有限带宽链接。为保持功能单元能够传送数据,处理器必须从外部存储器中预先获取数据,放入片内高速缓存中,这样,数据更接近要进行计算的地方。使用这些技术,性能经过多年的提高后,这类体系结构的改动已经不大了。图1.可编程和并行技术最近的发展趋势在传统处理器体系结构上,这两种趋势的优势日益减小,我们开始寻找各种软件可编程器件,这些器件的发展非常快,如图1所示。重点是从运行时自动提取指令级并行处理操作,发展到在编码时明确的找到线程级并行处理操作。开始出现高度并行的多核器件,一般趋势是含有多个简单处理器,很多晶体管专门用于计算,而不是采用高速缓存,提取并行处理操作。这些器件一般包括含有2、4或者8个内核的多核CPU,以及含有数百个适用于数据并行计算的简单内核的GPU等。为能够在这些多核器件上实现高性能,编程人员必须以并行方式清晰的对实际应用进行编程。每一内核都必须分配一定的工作,这样,所有内核能够协同工作,执行某一计算。这也是FPGA设计人员在开发其高级系统体系结构时所做的工作。考虑到多核新时代开发并行程序的需求,开发了OpenCL (开放计算语言),以便开发跨平台并行编程标准。OpenCL标准还能够自然的描述在FPGA中实现的并行算法,其抽象级要比VHDL或者Verilog等硬件描述语言(HDL)高得多。虽然有很多高级综合工具能够实现高等级的抽象功能,但是都存在同样的基本问题。这些工具会采用连续C程序,产生并行HDL实现。在开发HDL时,困难还不是很明显,但是,提取出线程级并行处理操作在FPGA中实现以提高性能时,困难却非常大。而FPGA的并行功能非常强大,与其他器件相比,在尽可能提取并行功能时出现任何失败的后果都非常严重。OpenCL标准能够解决很多这类问题,它支持编程人员明确的设定并控制并行处理操作。与纯C语言描述的连续程序相比,OpenCL标准能够更自然的匹配FPGA的高度并行特性。OpenCL应用程序含有两部分。OpenCL主程序是纯软件例程,以标准C/C++编写,可以运行在任何类型的微处理器上。例如,这类处理器可以是FPGA中的嵌入式软核处理器、硬核ARM处理器或者外置x86处理器。在这一主软件例程执行期间的某一点,某一功能有可能需要进行大量的计算,这就可以受益于并行器件的高度并行加速功能,例如CPU、GPU、FPGA等器件。要加速的功能被称为OpenCL内核。采用标准C编写这些内核;但是,采用结构对其进行注释,以设定并行处理操作和存储器等级。图2中的例子对两个数组a和b进行矢量加法,将结果写回输出数组应答中。矢量的每一元素都采用了并行线程,当采用像FPGA这类具有大量精细粒度并行单元的器件进行加速时,能够很快的计算出结果。主程序使用标准OpenCLAPI,支持将数据传送至FPGA,调用FPGA内核,传回得到的数据。图2.在FPGA上实现的OpenCL例子在FPGA中,可以把内核功能传送到专用深度流水线硬件电路中,它使用了流水线并行处理概念,在本质上就是多线程的。这些流水线的每一条都可以复制多次,与一条流水线相比,提供更强的并行处理功能。在FPGA上实现OpenCL标准的优势使用OpenCL描述来开发FPGA设计,与基于HDL设计的传统方法相比,具有很多优势。开发软件可编程器件的流程一般包括进行构思、在C等高级语言中对算法编程,然后使用自动编译器来建立指令流。面向OpenCL的Altera SDK提供了设计环境,很容易在FPGA上实现OpenCL应用。如图3所示。图3.面向OpenCL的Altera SDK简介可以把这一方法与传统的FPGA设计方法相比较,在传统方法中,设计人员的主要工作是对硬件按照每个周期进行描述,用于实现其算法。传统流程涉及到建立数据通路,通过状态机来控制这些数据通路,使用系统级工具连接至底层IP内核,由于必须要满足外部接口带来的约束,因此,需要处理时序收敛问题。面向OpenCL的AlteraSDK帮助设计人员自动完成所有这些步骤,使他们能够集中精力定义算法,而不是重点关注乏味的硬件设计。以这种方式进行设计,设计人员很容易移植到新FPGA,性能更好,功能更强,这是因为OpenCL编译器将相同的高级描述转换为流水线,从而发挥了FPGA新器件的优势。在FPGA上使用OpenCL标准,与目前的硬件体系结构(CPU、GPU,等)相比,能够大幅度提高性能,同时降低了功耗。此外,与使用Verilog或者VHDL等底层硬件描述语言(HDL)的传统FPGA开发方法相比,使用OpenCL标准、基于FPGA的混合系统(CPU +FPGA)具有明显的产品及时面市优势。Altera(Altera_China) 
 文章为作者独立观点,不代表大不六文章网立场
的最新文章
助您成就非凡创想工程师与工程师之间的对话夜深了,宿舍里的学生被一阵刺鼻的气味弄醒了。她在黑暗的屋里寻找,看到室友的电动滑板冒出了火苗。还好在整个房间比上一代器件的处理器性能高65%话说,小编已经连续给大家推了好几期英特尔 SoC FPGA开发人员论坛(ISDF)的内容了,你们都报名了没?身体和心灵一起上路SMP(对称多处理)系统这么简单明了,为什么非要转向异构(非对称多处理)?Altera曾是OpenPOWER会员,现在不是了,但它说IBM仍是合作伙伴之一。Altera在四年前第一次设计带ARM的FPGA,它称将持续投资ARM,由客户进行选择。2016 年英特尔 SoC FPGA 开发者论坛(ISDF)活动MAX 10 FPGA——您的控制中心干货满满白皮书奉上大数据和IoT使计算云出现了新的分层,模糊了计算、存储和网络之间传统的边界。这一新的云层也给科技圈的人们带来了独特的新美感。红绿灯基本原理搞定状态机创建新技能英特尔FPGA技术大会(IFTD) 2016杭州站 / 成都站报名开启!扒一扒Altera RF 体系架构:Hepta每天学点新东西,整个世界都鲜活!来,激发你体内的洪荒之力!英特尔 FPGA技术大会(IFTD)活动即将正式启动您准备好了吗?Stratix10 MX 系列帮助客户高效地满足传统存储器解决方案无法实现的存储器带宽需求本文将介绍使用面向 OpenCL 的 Altera SDK 对 FPGA 进行编程,从而加速基因分析工具包功能。Altera设计解决方案网络(DSN,Design Solutions Network)上线啦!这里有你开发产品想要的各种资源!Intel正在发生巨变,将我们业务中的每一个组成部分——我们的人,我们工作的地点和我们的项目——都与我们的战略统一起来,从而加速我们的转型。FPGA作为最接近人脑的器件之一,在人工智能的实现方面有着巨大的发展潜力。像FPGA和SoC这样的“全能王”,不修炼电源管理的内力怎么行!来自爱板网发烧友的原创评测长文这一视频的目的是演示怎样使用Qsys,通过码型发生和检查功能,建立一个实例收发器设计。设计主要面向视频中的TJNEye是优化后的链路分析工具,可支持工程师迅速方便的对高速串行链路进行建模并评估其性能。戳阅读原文观看视电路板偏移参数工具用于帮助计算电路板偏移参数,这是对存储器接口进行时序分析时要考虑时要考虑的关键因素。怎样使E2E(Engineer to Engineer) 在线视频资源合集值得收藏的干货长文!课程名称:消除Hyper-Retiming中的障碍
参与方式:在线培训
时长:30分钟课程名称:Hyper-Retiming 介绍
参与方式:在线培训
时长:17分钟有趣又有料的地址映射设计经验分享贴电源IC“涨姿势”帖从linux零基础到上手玩转操作的进击之路Altera公司汽车系统架构师 Clive Davies接受《电子工程专辑》杂志的采访,与记者就ADAS解决方案相关话题进行的探讨。我不生产代码,我只是代码的搬运工在此视频中,Altera技术专家将演示怎样发挥Altera第10代FPGA中新的硬核浮点DSP模块的优势。点200多位行业大咖与媒体朋友汇聚一堂,与Altera 及合作伙伴共同探讨FPGA行业及技术发展趋势。2015 年 11 月 3 号
中国,深圳使用Quartus 14.0版和Arria10,Altera公司的现场应用工程师MikioIchiba介绍了一位勤奋的攻城狮用DE1-SoC板子,经过两天的挑灯夜战,开发出人脸检测功能的故事!本视频将厘清Altera FPGA数据资料中的一些术语与模拟或电源工程师常规说法的不同之处,同时分析了FPG了解OpenCL基本概念和OpenCL标准会怎样映射到不同的硬件及使用Altera OpenCL解决方案的优势。Stratix(R) 10 FPGA和SoC中的HyperFlex(TM)新体系结构支持“寄存器无处不在”设计。除了逻辑单元寄存器,HyperFlex体系结构还有与每一互联布线段相关的寄存器。2015 Altera 技术大会等你加入!Stratix10 HyperFlex架构可以让FPGA设计的平均速率提高2倍。裸机指处理器系统的实际寄存器接口和硬件功能。裸机编程被认为直接读取和写入到硬件,没有或很少有中间软件层代码。裸机不使用任何操作系统。通过工程师在QuartusII上面的操作,来演示如何生成收发器相关的组件并加以集成。Altera_China为关注FPGA的工程师及相关人士提供最有价值的信息和支持。热门文章最新文章Altera_China为关注FPGA的工程师及相关人士提供最有价值的信息和支持。

我要回帖

更多关于 amd显卡支持opencl 的文章

 

随机推荐