图漾科技用的是gpu还是fpga gpu

另想请教一些世俗的问题:比如就业面,就业难度,发展深度,可持续性当然考虑这些问题又不得不考虑其本身学术特性,比如功耗,效率等问题,目前我刚进实验室,需要从这两个研究方向上择其一本是世俗之人,可能无意继续深造,故想探究一些非学术性上的问题,还请各位前辈指路 ^ ^
题主提到「嵌入式应用」,那主要考虑的是以后在工业界混吧。目前来看,GPU和FPGA的优势和劣势有:GPU:并行计算能力强,并且高级语言的使用可使开发人员将精力集中在算法研究和实现上,缺点就是,能耗很高,这在工业应用或者大规模使用上是个非常头疼的问题;FPGA:早期主要是作为数字逻辑器件使用,现在可以理解为使用硬件来实现软件算法,在并行计算速度上当然没话说;但是,要实现起来十分困难,程序的每一句其实都是实际的硬件模块,这就给复杂算法的实现带来了太多的限制。但是它的优势就是功耗非常低,工业应用上有很大的发展前景;在未来的嵌入式应用中,这两者的发展很有可能:1. 复杂算法的处理主要集中在GPU平台,因为开发速度快、并行计算能力好;FPGA的复杂算法开发周期比较长,并且很大部分仍然停留在理论模型阶段;2. 在GPU和CPU上的算法如图像处理等有部分会逐渐在FPGA上实现,这个可以在ICCV、CVPR等会议论文中看看规律;3. GPU可能会逐渐发展为两条路,一条主攻高端复杂算法的实现,设计灵活性确实比FPGA要好很多;第二条路是通用性算法平台,将能耗降下来,而FPGA的高端器件中也逐渐增加DSP、ARM核等高级模块,以实现较为复杂的算法;总而言之,不要想得太复杂,两条路都很好走,主要看自己的兴趣,只要自己不断学习、做好自己的工作就业就不会有问题。另外,科技的发展从来都是不断创新不断融合的过程,此刻我们在讨论这个问题,下一刻说不定这些东西就都不存在了。
做技术的话,就要做到最好,尽量向金字塔最上边爬。&br&站在沙子里是不可能比较出哪个金字塔更好的。&br&不知道你看过那个笑话没:鲁迅《“人话”》:是大热天的正午,一个农妇做事做得正苦,忽而叹道:“皇后娘娘真不知道多么快活。这时还不是在床上睡午觉,醒过来的时候,就叫道:太监,拿个柿饼来!’”&br&&a href=&///?target=http%3A///post/227053/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&[火星转载]皇后娘娘的柿饼子——所谓“民间想象”&i class=&icon-external&&&/i&&/a&
做技术的话,就要做到最好,尽量向金字塔最上边爬。站在沙子里是不可能比较出哪个金字塔更好的。不知道你看过那个笑话没:鲁迅《“人话”》:是大热天的正午,一个农妇做事做得正苦,忽而叹道:“皇后娘娘真不知道多么快活。这时还不是在床上睡午觉,醒过来…
已有帐号?
无法登录?
社交帐号登录
爱好机器人,创业中址:深圳市福田区振华路鼎诚国际大厦1715室
雷达信号处理:FPGA还是GPU?&您现在的位置: &
FPGA和CPU一直是雷达信号处理不可分割的组成部分。传统上FPGA用于前端处理,CPU用于后端处理。随着雷达系统的处理能力越来越强,越来越复杂,对信息处理的需求也急剧增长。为此,FPGA不断在提高处理能力和吞吐量,CPU也在发展以满足下一代雷达的信号处理性能需求。这种努力发展的趋势导致越来越多的使用CPU加速器,如图形处理单元(GPU)等,以支持较重的处理负载。  本文对比了FPGA和GPU浮点性能和设计流程。最近几年,GPU已经不仅能完成图形处理功能,而且成为强大的浮点处理平台,被称之为GP-GPU,具有很高的峰值FLOP指标。FPGA传统上用于定点数字信号处理器(DSP),而现在足以竞争完成浮点处理功能,也成为后端雷达处理加速功能的有力竞争者。  在FPGA前端,40 nm和28 nm均报道了很多可验证的浮点基准测试结果。Altera的下一代高性能FPGA将采用Intel的14 nm三栅极技术,性能至少达到5 TFLOP.使用这种先进的半导体工艺,性能可实现100 GFLOPs/W.而且,Altera FPGA现在支持OpenCL,这是GPU使用的一款优秀的编程语言。  峰值GFLOPS指标  目前的FPGA性能可达到1TFLOP以上峰值,AMD和Nvidia最新的GPU甚至更高,接近4 TFLOP.但在某些应用中,峰值GFLOP,即TFLOP,提供的器件性能信息有限。它只表示了每秒能完成的理论浮点加法或乘法总数。这一分析表示,在雷达应用中,很多情况下,FPGA在算法和数据规模上超过了GPU吞吐量。  一种中等复杂且常用的算法是快速傅里叶变换(FFT)。大部分雷达系统由于在频域完成大量处理工作,因此会经常用到FFT算法。例如,使用单精度浮点处理实现一个4,096点FFT.它能在每个时钟周期输入输出四个复数采样。每个FFT内核运行速度超过80 GFLOP,大容量28 nm FPGA的资源支持实现7个此类内核。  但如图1所示,该FPGA的FFT算法接近400 GFLOP.这一结果基于“按键式”OpenCL编译,无需FPGA专业知识。使用逻辑锁定和设计空间管理器(DSE)进行优化,7内核设计接近单内核设计的fMAX,使用28 nm FPGA,将其提升至500 GFLOP,超过了10 GFLOPs/W.  图1.Stratix V 5SGSD8 FPGA浮点FFT性能  这一GFLOPs/W结果要比CPU或者GPU功效高很多。对比GPU,GPU在这些FFT长度上效率并不高,因此没有进行基准测试。当FFT长度达到几十万个点时,GPU效率才比较高,能够为CPU提供有效的加速功能。但是,雷达处理应用一般是长度较短的FFT,FFT长度通常在512至8,192之间。  总之,实际的GFLOP一般只达到峰值或者理论GFLOP的一小部分。出于这一原因,更好的方法是采用算法来对比性能,这种算法能够合理的表示典型应用的特性。随着基准测试算法复杂度的提高,其更能代表实际雷达系统性能。  算法基准测试  相比依靠供应商的峰值GFLOP指标来驱动处理技术决策,另一方法是使用比较复杂的第三方评估。空时自适应处理(STAP)雷达常用的算法是Cholesky分解。这一算法经常用于线性代数,高效的解出多个方程,可以用在相关矩阵上。  Cholesky算法在数值上非常复杂,要获得合理的结果总是要求浮点数值表示。计算需求与N3成正比,N是矩阵维度,因此,一般对处理要求很高。雷达系统一般是实时工作,因此,要求有较高的吞吐量。结果取决于矩阵大小以及所要求的矩阵处理吞吐量,通常会超过100 GFLOP.  表1显示了基于Nvidia GPU指标1.35 TFLOP的基准测试结果,使用了各种库,以及Xilinx Virtex6 XC6VSX475T,其密度达到475K LC,这种FPGA针对DSP处理进行了优化。用于Cholesky基准测试时,这些器件在密度上与Altera FPGA相似。LAPACK和MAGMA是商用库,而GPU GFLOP则是采用田纳西州大学开发的OpenCL实现的(2)。对于小规模矩阵,后者更优化一些。  表1.GPU和Xilinx FPGA Cholesky基准测试(2)  Altera测试了容量中等的Altera Stratix? V FPGA(460K逻辑单元(LE)),使用了单精度浮点处理的Cholesky算法。如表2所示,在Stratix V FPGA上进行Cholesky算法的性能要比Xilinx结果高很多。Altera基准测试还包括QR分解,这是不太复杂的另一矩阵处理算法。Altera以可参数赋值内核的形式提供Cholesky和QRD算法。  表2.Altera FPGA Cholesky和QR基准测试  应指出,基准测试的矩阵大小并不相同。田纳西州大学的结果来自[512×512]的矩阵,而Altera基准测试的Cholesky是[360x360],QRD则高达[450x450]。原因是,矩阵规模较小时,GPU效率非常低,因此,在这些应用中,不应该使用它们来加速CPU.作为对比,在规模较小的矩阵时,FPGA的工作效率非常高。雷达系统对吞吐量的要求很高,每秒数千个矩阵,因此,效率非常关键。采用了小矩阵,甚至要求把大矩阵分解成小矩阵以便进行处理。  而且,Altera基准测试是基于每个Cholesky内核的。每个可参数赋值的Cholesky内核支持选择矩阵大小,矢量大小和通道数量。矢量大小大致决定了FPGA资源。较大的[360×360]矩阵使用了较长的矢量,支持FPGA中实现一个内核,达到91 GFLOP.较小的[60×60]矩阵使用的资源更少,因此,可以实现两个内核,总共是2×42 = 84 GFLOP.最小的[30×30]矩阵支持实现三个内核,总共是3×25 = 75 GFLOP.  FPGA看起来更适合解决数据规模较小的问题,很多雷达系统都是这种情况。GPU之所以效率低,是因为计算负载随N3而增大,数据I/O随N2增大,最终,随着数据的增加,GPU的I/O瓶颈不再是问题。此外,随着矩阵规模的增大,由于每个矩阵的处理量增大,矩阵每秒吞吐量会大幅度下降。在某些点,吞吐量变得非常低,以至于无法满足雷达系统的实时要求。  对于FFT,计算负载增加至N log2 N,而数据I/O随N增大而增大。对于规模较大的数据,GPU是高效的计算引擎。作为对比,对于所有规模的数据,FPGA都是高效的计算引擎,更适合大部分雷达应用,这些应用中,FFT长度适中,但是吞吐量很大。GPU和FPGA设计方法  GPU可以通过使用Nvidia专用CUDA语言或开放标准OpenCL语言来编程。这些语言在能力上非常相似,最大的不同在于CUDA只能用在Nvidia&GPU上。  FPGA通常使用HDL语言Verilog或VHDL进行编程。这些语言的最新版虽然采用了浮点数定义,但都不太适合支持浮点设计。例如,在System Verilog中,短实数变量对应于IEEE单精度(浮点),实数变量对应于IEEE双精度。  DSP Builder高级模块库  使用传统的方法将浮点数据通路综合到FPGA的效率非常低,如Xilinx FPGA在Cholesky算法上使用了Xilinx浮点内核产生函数的低性能显示,。而Altera采两种不同的方法。首先是使用DSP Builder高级模块库,这是基于Mathworks的设计输入方法。这一工具支持定点和浮点数,支持7种不同精度的浮点处理,包括IEEE半、单和双精度实现。它还支持矢量化,这是高效实现线性代数所需要的。最重要的是,它能够将浮点电路高效的映射到目前的定点FPGA体系结构中,如基准测试所示,规模中等的28 nm FPGA,Cholesky算法接近了100 GFLOP.作为对比,在不具有综合能力的规模相似的Xilinx FPGA上,实现Cholesky相同算法,性能只有20 GFLOP.  面向FPGA的OpenCL  GPU编程人员较为熟悉OpenCL.面向FPGA的OpenCL编译意味着,面向AMD或Nvidia GPU编写的OpenCL代码可以编译到FPGA中。而且,Altera的OpenCL编译器支持GPU程序使用FPGA,无需具备典型的FPGA设计技巧。  使用支持FPGA的OpenCL,相对于GPU有几个关键优势。首先,GPU的I/O是有限制的。所有输入和输出数据必须由主CPU通过PCI Express?(PCIe?)接口进行传输。结果延时会让GPU处理引擎暂停,因此,降低了性能。  面向FPGA的OpenCL扩展  FPGA以各种宽带I/O功能而知名。这些功能支持数据通过千兆以太网(GbE)和Serial RapidIO?(SRIO),或直接从模数转换器(ADC)和数模转换器(DAC)输入输出FPGA.Altera定义了OpenCL标准的供应商专用扩展,以支持流操作。这种扩展对于雷达系统非常关键,数据能够从定点前端波束成形直接输出,支持浮点处理阶段的数字下变频处理,实现脉冲压缩,多普勒,STAP,动目标显示(MTI),以及图2所示的其他功能。通过这种方法,数据流在通过GPU加速器之前,避免了CPU瓶颈问题,从而降低了总处理延时。  图2.通用雷达信号处理图  即使与I/O瓶颈无关,FPGA的处理延时也要比GPU低很多。众所周知,GPU必须有数千个线程才能高效工作,这是由于存储器读取很长的延时,以及GPU大量的处理内核之间的延时。实际上,GPU必须有很多任务才能使得处理内核不会暂停等待数据,否则会导致任务很长的延时。  而FPGA使用了“粗粒度并行”体系结构。它建立了多个经过优化的并行数据通路,每一通路在每个时钟周期输出一个结果。数据通路的例化数取决于FPGA资源,但一般要比GPU内核数少很多。但是,每一数据通路例化的吞吐量要比GPU内核高得多。这一方法的主要优势是低延时,这在很多应用中都是关键的性能优势。  FPGA的另一优势是很低的功耗,极大的降低了GFLOPs/W.使用开发板测量FPGA功耗,表明Cholesky和QRD等算法是5-6 GFLOPs/W,而FFT等简单算法则是10 GFLOPs/W.一般很难进行GPU能效测量,但是,Cholesky的GPU性能达到50 GFLOP,典型功耗是200 W,得到的结果是0.25 GFLOPs/W,单位FLOP的功率比FPGA高20倍。  对于机载或车载雷达装备,系统体积、重量和功耗(SWaP)都非常重要。在未来的系统中,雷达工作很容易达到数十个TFLOP.总处理能力与现代雷达系统的分辨率和覆盖范围相关。  融合数据通路  OpenCL和DSP Builder都依靠“融合数据通路”这种技术(图3),以这种技术实现浮点处理,能大幅度减少桶形移位电路,支持使用FPGA开发大规模高性能浮点设计。  图3.采用融合数据通路实现浮点处理  为降低桶形移位频率,综合过程尽可能使用较大的尾数宽度,从而不需要频率归一化和去归一化。27×27和36×36硬核乘法器支持比单精度实现所要求的23位更大的乘法计算,54×54和72×72结构的乘法器支持比52位更大的双精度计算,这通常是双精度实现所要求的。FPGA逻辑已经针对大规模定点加法器电路进行了优化,包括了内置进位超前电路。当需要进行归一化和去归一化时,另一种可以避免低性能和过度布线的方法是使用乘法器。对于一个24位单精度尾数(包括符号位),24×24乘法器通过乘以2n对输入移位。27×27和36×36硬核乘法器支持单精度扩展尾数,可以用于构建双精度乘法器。  在很多线性代数算法中,矢量点乘是占用大量FLOP的底层运算。单精度实现长度是64的长矢量点乘需要64个浮点乘法器,以及随后由63个浮点加法器构成的加法树。这类实现需要很多桶形移位电路。  相反,可以对64个乘法器的输出进行去归一化,成为公共指数,最大是64位指数。可以使用定点加法器电路对这些64路输出求和,在加法树的最后进行最终的归一化。如图4所示,这一本地模块浮点处理过程省掉了每一加法器所需要的中间归一化和去归一化。即使是IEEE 754浮点处理,最大指数决定了最终的指数,因此,这种改变只是在计算早期进行指数调整。  图4.矢量点乘优化  但进行信号处理时,在计算最后尽可能以高精度来截断结果才能获得最佳结果。这种方法传递除单精度浮点处理所需要尾数位宽之外的额外的尾数位宽,一般从27位到36位补偿了单精度浮点处理所需要的早期去归一化这种次优方法,。采用浮点乘法器进行尾数扩展,因此,在每一步消除了对乘积进行归一化的要求。  这一方法每个时钟周期也会产生一个结果。GPU体系结构可以并行产生所有浮点乘法,但不能高效并行进行加法。原因是因为不同的内核必须通过本地存储器传输数据实现通信,因此缺乏FPGA架构的连接的灵活特性。  融合数据通路方法产生的结果比传统IEEE 754浮点结果更加精确,如表3所示。  表3.Cholesky分解准确性(单精度)    使用Cholesky分解算法,实现大规模矩阵求逆,获得了这些结果。相同的算法以三种不同的方法实现:  n在MATLAB/Simulink中,采用IEEE 754单精度浮点处理。  n在RTL单精度浮点处理中,使用融合数据通路方法。  n在MATLAB中,采用双精度浮点处理。  双精度实现要比单精度实现精度高十亿倍(109)。  MATLAB单精度误差、RTL单精度误差和MATLAB双精度误差对比确认了融合数据通路方法的完整性。采用了这一方法来获得输出矩阵中所有复数元素的归一化误差以及矩阵元素的最大误差。使用Frobenius范数计算了总误差:    由于范数包括了所有元素的误差,因此比单一误差大很多。  此外,DSP Builder高级模块库和OpenCL工具流程都针对下一代FPGA体系结构,支持并优化目前的设计。由于体系结构创新和工艺技术创新,性能可以达到100峰值GFLOPs/W.  结论  高性能雷达系统现在有新的处理平台选择。除了更好的SWaP,与基于处理器的解决方案相比,FPGA能提供低延时和高GFLOP.随着下一代高性能计算优化FPGA的推出,这种优势会更明显。  Altera的OpenCL编译器为GPU编程人员提供了几乎无缝的通路来评估这一新处理体系结构的指标。Altera OpenCL符合1.2规范,提供全面的数学库支持。它解决了传统FPGA遇到的时序收敛、DDR存储器管理以及PCIe主处理器接口等难题。  对于非GPU开发人员,Altera提供DSP Builder高级模块库工具流程,支持开发人员开发高fMAX定点或浮点DSP设计,同时保持基于Mathworks的仿真和开发环境的优点。使用FPGA的雷达开发人员多年以来一直使用该产品,实现更高效的工作流程和仿真,其fMAX性能与手动编码HDL相同。
商城链接&:
深圳市福田区振华路鼎诚国际大厦1715室&&&&电话:8
Copyright&@&&&All Rights reserved
粤ICP备号&&址:深圳市福田区振华路鼎诚国际大厦1715室
医疗电子平台选择:FPGA、ARM、X86、DSP还是GPU分析&您现在的位置: &
“迈瑞对于处理器平台的选择有两个看似矛盾的原则:‘多’和‘少’。其中‘多’是指多样性,我们知道无论是DSP、ARM、X86还是FPGA、GPU,每个平台都有各自的优点和缺陷,因此在设计产品时就可以根据他们的特点进行选择和搭配,处理器平台的多样性以及合理的搭配可以使产品更具有竞争力。”在日前举办的第三届中国国际医疗电子技术大会(CMET2010)上,深圳迈瑞生物医疗电子硬件技术委员会执行主任、系统工程师姚力与大家分享了迈瑞选择处理器平台的秘诀,“‘少’则是指的尽最大可能的减少处理器种类,多种处理器平台不但会给制造方面带来麻烦,在研发方面也会大大增加企业人力和资金的投入,每采用一个新的处理器平台都需要购买新的软件、重新培训工程师等等。因此迈瑞的传统是把首次使用获得成功的处理器平台在多个产品中反复应用,如果要使用一种新的处理器时,必须经过技术委员会的听证批准。”  据姚力介绍,迈瑞的明星产品便携式彩色超声仪M7中就使用了X86、FPGA、DSP 和ARM等多个平台应对不同工作,其中主处理器采用了性能与价格皆高的Intel CORE 2 duo、信号处理采用运算能力更加强大的FPGA和DSP共同完成、面板部分采用Nios II、电源部分则使用了低端的ARM7系列产品,充分体现了迈瑞选择处理器平台原则中的“多”字。另外一个原则“少”则体现在同一系列的产品一旦选定处理器,今后的几代产品中都将使用同样平台,几乎不会再做更换。  &  迈瑞M7: 医疗电子处理器平台选择中的“多”  &  统一平台重复使用: 医疗电子处理器平台选择中的“少”  这种代表了绝大多数医疗电子厂商选择处理器平台的策略使得多家处理器供应商瞄上了这一市场:“多”意味着只要你的处理器具有某种优势或特点就有可能会被选用,“少”则意味着一旦被选用,就获取了一个订单十分稳定的长期客户。因此在CMET2010上,NXP、Freescale、TI、ADI、Actel、Xilinx等处理器供应商都大力展示出了自己产品平台的特色与优势。  恩智浦半导体大中华区市场总监金宇杰介绍,NXP提供了从M3、M0到M4的一系列32位MCU,可以为医疗电子应用提供多样化选择。其中Cortex-M3系列产品性能更高,能够从ARM7的应用顺利过渡,具有USB OTG、Motor controlled PWM、QEI、CAN等丰富的周边功能,还拥有内存保护单元(MPU)、嵌套向量中断控制器(NVIC)、Flash加速器、DMA等多种独特的执行工具;Cortex-M0系列中断程序可使用C代码、兼容M3以及超低功耗深度睡眠价格使其更有利于医疗电子设备达到更低的功耗、获取更低的性价比;最新推出的M4系列则融合了MCU与DSP的功能,在处理DSP的算法速度上提高了5-10倍。  飞思卡尔半导体市场经理何英伟表示,Freescale已经在医疗电子领域耕耘了十余年,公司有专门的团队针对医疗市场开发产品,如近期就推出了用于大量个人医疗应用的MCU辅助产品——首款通用串行总线(USB)软件栈。在月底还将推出三款新的MCU:MC9S08LL/LH、MC9S08JE/MM、MCF51JE/MM,其中在JE和MM部分都会有两个不同版本,提供兼容引脚、可无缝升级的8到32位的MCU,十分适合用于开发同系列高低档产品。  德州仪器半导体事业部MSP430应用工程师郭君表示,MSP430系列已经在医疗电子产品中广泛应用。如TI 的低功耗 DSP 技术还可以消除由其它光源或读取信息时出现的移动而导致的信号失真,仅提取重要信号。通过复杂算法,DSP 技术可精确读取极低电平信号,这一附加处理功能在脉动式血氧计中非常有用,它能测量其它波长的吸收以检测其它种类氧络血红蛋白的饱和度。另外MSP430还集成了信号链、电源管理和显示驱动器元件,十分适合要求更多功能的新型医疗设备使用。  与其他厂商不同,ADI亚太区医疗业务资深业务经理周文胜并没有主推其DSP产品,而是剑走偏锋,详细介绍了ADI推出的脉搏血氧仪单板解决方案,使用该方案可以使医疗电子厂商迅速推出低成本、小尺寸、高性能的便携式脉搏血氧仪,大概是希望能够利用更加便捷的设计吸引一些设计能力不足或者想在便携产品减少研发投入的厂商。  参加CMET2010的还有Xilinx与Actel两个FPGA厂商,据赛灵思亚太区市场及应用总监张宇清介绍,拥有超低功耗、超多接口、灵活配置以及更强计算能力等特点的FPGA更加适合医疗成像、诊断、监测和治疗等等医疗电子中专有应用,而FPGA更加有利于创新的特性也将在中国医疗电子产业升级的过程中发挥重要作用。Actel技术支持/培训经理戴梦麟则介绍了其独有的基于Flash的FPGA技术,据其介绍,基于Flash的特性使得Actel FPGA具有上电即行、固件错误免疫等独特优势。  而在大会上没有出现的X86与GPU阵营也各有个的特点,如X86是目前计算机通用平台,对于开发人员来讲界面十分亲和,而且X86产品经过intel多年的努力,接口十分丰富,性能也相对较高,不过存在价格偏高、功耗偏大的先天缺陷,这一点intel目前正在弥补。GPU平台虽然还未获得大量使用,但依靠其图像处理能力已经获得了医疗成像领域的广泛关注,姚力甚至称其为“下一代处理器平台”。  不过,正如文章开头所述,无论是那种处理器都不可能独占市场。因而各家厂商需要做的不是拼命争抢同一个市场,而是充分发挥自身技术的优势,专攻更加适合自己产品的应用市场。不但如此,彼此之间还应该进行更加充分的合作,从而让终端产品厂商更加容易的进行搭配,这一点现在也得到了大家的认可,如赛灵思就与ARM开始了深度合作,在FPGA中集成了ARM内核,MIPS也向Altera 公司授权了MIPS32TM 架构,相信随着这些合作的深入,未来的处理器市场将会是百花齐放、各尽其责的一片大好场面。
商城链接&:
深圳市福田区振华路鼎诚国际大厦1715室&&&&电话:8
Copyright&@&&&All Rights reserved
粤ICP备号&&[转载]周彦武:无人驾驶硬件系统核心GPU和FPGA
周彦武:无人驾驶硬件系统核心GPU和FPGA
( 11:40:04) &
&.cn/s/blog_5ffdk.html
&&&上图为奥迪无人驾驶车的中央控制系统,奥迪称之为Zfas。核心部件有4个,一个是英伟达的Tegra
K1,另一个为Altera的Cyclone V SoC
FPGA,还有一个Mobileye的EQ3,最后还有一个英飞凌的CPU。K1负责低速时全面工作,EQ3做小范围辅助,FPGA做传感器的Fusion,英飞凌的Cpu做系统冗余,在高速时发挥作用,或者做系统后备。FPGA的I/O是目前所有半导体器件中最好的,因此传感器的Fusion非FPGA莫属,GPU不仅是目前无人驾驶级图形运算的唯一选择,也是执行深度学习算法的最常用硬件。
&&上图为Zfas的电路板。Zfas系统由奥地利TTECH设计,美国德尔福制造。Zfas的原型系统异常庞大且复杂,如下图。
&&百度的无人驾驶目前也只能达到类似上图的地步,后备箱里就是一个图形工作站和分布式控制系统。
编按:上月一个在上海汽车做新能源汽车设计的同学说,新能源+智能驾驶+大数据,将会对汽车技术带来翻天覆地变化,观望之。
百度、谷歌、特斯拉和奥迪无人驾驶分析之一,概览与激光雷达(绝对原创非复制)
( 11:10:53)
&&&&这几天百度的无人驾驶汽车很火,不过需要指出,所有无人驾驶或智能化汽车的硬件部分都是由国外厂家垄断,跟中国厂家无丝毫关系,唯一的硬件是舜宇的车载摄像头光学镜头,全球市场占有率大约1/3,占据全球第一的位置,Mobileye所用的摄像头光学镜头基本都是舜宇造的。中国能做的只是软件,虽然目前有很多初创公司在做毫米波雷达,甚至激光雷达,但与国外差距太远,基本都是买飞思卡尔的套件加英飞凌的收发器组装而成,谈不上技术含量。
&&&无人驾驶硬件的核心是激光雷达和整体控制系统,整体控制系统里以GPU和FPGA为核心。任何没有激光雷达的无人驾驶都是不可能的,即便是叫半自动无人驾驶都言过其实,特斯拉的所谓无人驾驶就是如此,称之为1/8无人驾驶才更准确,其离半自动无人驾驶都有很大的差距,至少需要5-10年,特斯拉才能达到半自动无人驾驶的地步。
&&&&&&上图为奥迪无人驾驶车的传感器分布,包括2个激光雷达,4个短距雷达,4个顶置摄像头,1个3D双目摄像头,4个超声波雷达,2个短距雷达,2个长距雷达,总共21个传感器。激光雷达由IBEO提供,百度的无人驾驶车使用4个IBEO的雷达,价格大约每个1万美元。
&&硬件部分主要是传感器和整体控制系统,传感器种类很多,激光雷达、毫米波雷达、摄像头和超声波雷达。激光雷达再分2D和3D的,3D的有360度的,还有180度的,按激光类型,还有红外激光与近红外激光之分,最常见的是百度和谷歌无人驾驶车顶的Velodyne
HDL64-E。采用64通道,120米范围,每秒130万个云点。售价大约6万美元。
&激光雷达是做物体检测最可靠最快捷的工具,比摄像头准确度高的多。Google无人驾驶顾问Robocars指出摄像头或许可以做到99%的准确度,但如果那1%是个行人或一个骑自行车的小孩,那这个99%的准确度是无法接受的,必须是100%准确度,只有激光雷达能做到。
3D激光雷达除了物体检测和车距检测外,最重要的是生产一副实时的虚拟3D地图和实时定位。也就是 SLAM(Simultaneous
Localiziation and
Mapping),实时3D地图保证汽车不出事故,实时定位保证汽车轨迹正确。这是无人驾驶的关键,当然定位也需要GPS的配合。实时虚拟3D地图每秒需要采样100万点以上,只有3D激光雷达才能做到。
周彦武:无人驾驶软件系统核心是深度学习,百度深度学习研究院介绍
& 11:56:01)
&&&&对中国人来说,无人驾驶汽车时代唯一能做的除了销售和使用,就是编软件,写代码了。百度和谷歌为何热衷无人驾驶,原因有两点,一是它们拥有强大的地图资源,它们试图把它商业化,赚更多地钱。二就是它们在深度学习领域有着强大的优势,而深度学习正是无人驾驶软件系统的核心。
&&&无人驾驶软件的关键是人工智能,而要实现人工智能,目前最常见的就是深度学习。百度的无人驾驶车就是百度深度学习研究院完成的。深度学习研究院来自深度学习专家余凯,
2013年7月,余凯组建百度深度学习研究院(Institute of Deep
IDL)。IDL是百度历史上首次成立的研究院,李彦宏亲自任院长,余凯任常务副院长。IDL的成立标志着百度对核心技术领域,尤其是对大数据人工智能技术的高度重视和大力投入。IDL的总部在北京,在美国硅谷和深圳等地设有实验室。也就是从那时候起,IDL开始进军无人驾驶领域,2014年5月,余凯说服多年好友Andrew
Ng也就是吴恩达加入百度,担任百度公司的首席科学家。Andrew
Ng教授曾经是斯坦福大学人工智能实验室主任,谷歌大脑项目之父,在线教育公司Coursera联合创始人。吴恩达也是谷歌无人驾驶汽车人工智能部分主要负责人,也是深度学习领域的全球级专家,2013年时代杂志评选影响全球的百人中,吴恩达成为13位入选的科技精英之一,吴恩达进入百度后,主要做语音搜索引擎,无人驾驶仍有Idl负责,倪凯、黄畅为核心人物,林元庆则在今年11月刚刚加入。
&&余凯可能是感觉到吴恩达在上,自己缺乏成长空间,2015年离职创业,进军无人机领域。
深度学习框架
&深度学习就是一种训练模式,所谓的训练就是在成千上万个变量中寻找最佳值的计算。这需要通过不断的尝试实现收敛,而最终获得的数值并非是人工确定的数字,而是一种常态的公式。通过这种像素级的学习,不断总结规律,计算机就可以实现像人一样思考。
深度学习的困难在于其带来了天量运算。深度学习会带来惊人的数据量,高达17亿的参数网络,需要用大型机来完成运算,CPU用来做深度学习不合适,1张高清图片,需要16000核,工作1星期。
还好有GPU,非常适合深度学习
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 fpga与gpu 的文章

 

随机推荐