请高手指教,下图高手EXCETL表格中怎样在第二个表格按姓名用公式进行数据查询,把相对应的数据查询出来

近来报表软件、商业智能、OLAP、数據分析等概念非常火热作为关键基础环节的报表软件在市场上也是层出不穷,让人眼花缭乱国内外的加起来细数一下,大概有二三十種之多这些产品看起来实现的功能都差不多,那么应当怎样选一款满足自己需求的报表软件? 在选型过程中不被厂商的宣传和演示牵着鼻子走?

在多年的报表经营过程中我们发现许多用户在选择报表软件时会有许多认知误区,本篇将主要针对这些问题提供一些意见和建議供参考

一个最常见的误区就是报表中间件和报表平台分不清楚,在演示过程中被平台类产品丰富的功能吸引但其实需求却是要在项目中嵌入使用的报表工具。这一方面可能为多余的功能买单另一方面还会带来难以集成的问题,多余的功能也如鸡肋一般很难发挥作鼡。

要想避免这个问题首先应该弄清楚需求(敲黑板,需求需求,需求要明确)是用于在业务系统中做报表,还是要上跨业务系统嘚报表管理平台这两种需求看起来都是要做报表,但其实差别却巨大

需求为前者时,我们要选中间件型报表工具报表中间件的特点昰报表和中间件,除了要有足够强大的功能将数据以报表和统计图的方式呈现外还有个很重要的使命是 - 被 ~ 集 ~ 成 ~,快速被集成为我们完善业务系统的报表模块提供便利。而当需求为后者的情况下则需要关注报表平台型产品。报表平台是指提供报表、统计图及其他 BI 组件(儀表盘、数据看板等)的组织管理、权限控制等功能的软件系统重点是功能全面的系统。

在报表行业厂商提供的产品也大体分为这两類:以中间件形式提交的报表工具和以报表为中心的外围解决方案即报表平台。选择报表软件时一定先要搞清备选产品是哪一类的,和需求目标不匹配的做得再炫也不必考虑了。

报表工具是细分领域“专而精”的产物主要解决固定报表的制作。所谓固定报表是指由技术人员预先定义好取数规则,运算逻辑的报表后台会有一些较复杂的运算;业务人员只在 web 端查看或简单的增删改数据,不涉及报表结構的修改固定报表是日常报表开发工作中最常用且工作量最大的报表形式。而对应的另一种报表形式,自助报表可由业务人员在 web 端洎由拖拽指标字段生成不预先定义好表结构的报表,它能应对一些临时性的简单查询需求这两种形式从目标用户到应用方式两者都有巨夶不同,在选型时一定把固定报表和自助报表分开考虑本节先针对固定报表提供一些考察点,自助报表的问题在后面的章节会介绍

目湔国内主流报表工具采用的表格布局都是类 Excel 的单元格式,其好处是绘制简单方便而有些早期产品以及国外产品仍采用控件拖拽式布局,僦很不好用绘制带有合并格的复杂格式报表非常繁琐。而且采用类 Excel 式布局的产品一般都能导入以前用 Excel 画的表,也可以不失真地将报表導出成 Excel这都是控件式布局产品很难实现的但却非常必要的功能。

报表工具的主要任务就是减少开发工作量而复杂报表是工作量的重头。

对于报表样式简单数据来源单一的简单报表,如图 1几乎所有的报表工具都可以轻松实现(毕竟一个成熟的工具,要是连这样的简单報表都搞不定也就没啥存在的意义了),没有区分度但有些报表样式复杂,数据来源多样统计口径不规则的复杂报表,就不是每家報表工具都容易做出来的了如图 2,用国外或开源的报表工具就很难做出来代码量相当大,完全起不到减轻开发工作量的目的相比之丅,采用了非线性报表模型的国产报表工具对付复杂报表的能力要强大得多报表工具可能是少有的几个国产软件远胜国外软件的企业软件领域了。不过不同产品在模型细节的支持程度并不一致,还需要针对项目中的复杂报表仔细验证弄不好工作进程就可能被一两个特別麻烦的报表给卡住。重点的考察模型功能有:多源关联分片、行称是否对称、跨行组的同比环比以及排名计算、重叠分组等不规则分组方案、动态分组层次等

报表工具也应该与时俱进,支持多样性数据源信息化应用越来越广泛了,ERP、CRM、OA、BPM 等系统各种上马企业数据越來越大,报表也通常需要取到多个数据库多个数据表的数据所以最直接也是效果最好的,就是报表工具直接支持多数据源关联而不是先 ETL 做数据仓库等工作之后再取数。

方便易用的集成性是报表工具的重要指标也是特别容易在选型时被忽略的指标。有些报表工具(特别昰国外的产品)功能很强大独立使用也是六六六,但在国内跟各个业务系统集成的整体氛围下就水土不服因为缺失集成性。方便易用嘚集成性要求报表工具能对应用程序提供友好全面的接口方便用户与各业务系统无缝对接。能够适应各种环境能以类库方式完全集成箌应用系统中。这样不仅可以提高报表获取数据时与应用系统数据交互的性能还可以利用服务器的负载均衡等能力提升用户体验。

灵活嘚开放性才能适应用户更多特殊的需求不管是集成商还是终端用户都可以通过丰富的 API 接口,全面地对报表应用进行各种操作以需要的方式灵活地使用报表。满足用户各种个性化需求的自定义

决定报表工具生死的往往是性能和容量指标。随着大数据时代的到来选择报表工具时,性能指标越来越被用户所关注网络,报表层等都可能成为性能瓶颈而一款好的报表工具应该尽量绕开可以避免的瓶颈,如報表层就有很大的优化空间对于报表内常用的多数据源对齐,排名等采用更高性能的 Hash 算法报表提供缓存机制,包括模板缓存、结果缓存、分页缓存等多种方式提升报表服务器性能。提供集群缓存同步机制实现负载均衡的服务器之间跳转访问时的缓存自动同步。

现在越来越多的用户想在移动端随时随地查看企业报表,第一时间掌握企业动态他们往往是拿来主义,要求报表中间件厂商提供完整的移動端 APP 供他们直接使用但其实这是一个误区,对于移动端 APP 往往是由系统集成商开发并在提供给用户时适当的做一些客户定制化的功能。洏报表只需要具备输出 HTML5 的能力支持在移动端输出即可。作为中间件应用时报表工具厂商直接提供的 APP 是没有意义的,没有必要去考察

看似重要的美观性其实跟报表工具的直接关系不大。图表是用来直观的展示数据方便管理者在纷杂的数据中快速判断出业务数据的分布、趋势、占比、同比、环比等变化规律,支持管理者决策图表类型的数量及是否支持钻取、联动等功能也是评估报表工具的指标之一。媄观性对于报表当然很重要但由于有众多开源图形技术,这方面的比拼就已经不再是报表工具的重点了报表工具厂商与其花时间精力詓追赶,不如直接把好的东西为我所用这就又回到了“专而精”的话题。所以与其用美观性衡量报表跟图表不如衡量报表工具对第三方图表的集成性更实际。

最后但不是最不重要的是报表工具的价格。不过考察产品价格时要同时考察后续报表开发制作的成本要对比實际拥有成本。比如开源的工具虽然没有购买成本但实现复杂报表时,背后需要付出很大的工作量在核算成本时往往是入不敷出,实際拥有成本更高

报表平台应该包括的基本功能包括:报表资源管理、用户管理、数据管理、权限管理、系统外观及报表样式管理、定时調度任务管理以及系统监控等;移动应用,流程填报也是报表平台必不可少的功能;还有安全机制,运行报表平台时不安装插件、不改變用户的安全设置这样才对用户是安全的。这些报表平台的常规功能基本每家厂商都具备用户在考察这些内容时也很少有认知误区,┅般不会踩雷我们就不细说了。这里只介绍一些容易被忽略的功能点

不同企业,功能需求也是千差万别的即使功能再全面的一款报表平台软件,也逃不开个性化行业定制以及跟现有系统的整合对于报表平台的集成,主要考虑是否提供相关二次开发接口可以修改系統风格样式以匹配现有业务系统,是否提供多种单点登录接口可以使用现有业务系统的组织机构权限机制等。

要求平台中的各个功能模塊低耦合可以像积木一样随意拆装。 这样“报表 + 的功能太多了有很多我都不需要,或者我预算有限买不起这么多功能怎么办?“的顧虑就可以很愉快的解决了

报表业务有天生的不稳定性,导致报表总是没完没了地要修改和新增不可能一次性做完。那么问题来了:洳果有新的报表需求或者原有报表的维护工作由谁负责厂商?集成商用户?这个一定要在选型时就考虑清楚这个问题不然很容易被項目后期维护费用惊到或者出现报表平台不能真正用起来的情况。这里要强调一下不要寄希望于自助报表(后面会讲到原因)。

对于报表平台类产品有两种交付方式,即产品交付和项目交付而项目交付,定制解决方案为平台类产品的主要交付方式。在当下大环境下IT 实施团队的选型已经成为企业信息化建设成败的关键。但国内供应商不少是报表工具厂商扩大业务而形成的产品本身还可以,但项目經验少管理能力弱,所以需要考察的就不仅仅是报表软件的功能点更多是的要考察做实施项目团队的技术能力,相关行业经验以及项目管理体系和质量而国外的供应商实施能力就更弱了,可能是由于国外定制服务成本高导致的吧在缺乏市场定制化解决方案的需求的湔提下,缺乏集成性难以适应国内需求。

最后我们来谈一下自助报表

自助报表也是近年内特别热门的需求,几乎所有的报表平台都提供有这个功能各大厂商纷纷宣称可以让业务人员拖拽制表,不需要技术人员参与了

但这里有个巨大的误区。目前市场上的自助报表(戓交互式 BI)虽然可以在页面上轻松实现钻取、切片、旋转、分页、自定义指标、排序、各种基本计算(求和求平均,最大最小值等)與此同时兼具页面友好美观,使用流畅等特点但是,自助报表能够解决的业务人员需求其实相当少例如自助报表完全解决不了过程性計算,而大多数报表都需要过程计算来准备数据比如报表数据模型支持多源运算就是过程计算的一种。不支持关联查询的自助报表一般只能解决 10% 的业务人员需求,即使有了关联查询也只能解决 20% 到 30%所以不能对自助报表的期望过高。

关联查询是绝大多数自助报表产品都不支持的能力所谓关联查询就是需要查询的数据不在数据库的一张物理表中,通过某个主外键关系关联才能获得需要的信息例如:查询存储金额在 10 万以上的本地储户信息,就需要做多个表的关联运算传统自助报表不支持关联查询,需要事先建立逻辑或物理宽表把表间关系做死一旦关联需要发生变化时,只能重新建模但这就要求有 IT 人员再次参与,业务人员的自助就失去意义了而这个功能缺失又很可能被炫酷的界面掩盖而被忽略。能否支持关联查询是是考察自助报表功能的关键指标

有些报表工具也提供自助报表的能力,也可以作为報表中间件的功能组件被集成这时候就要考察其可集成的能力,即也能像报表中间件一样集成到其他应用系统中使用如果有集成需求,则要重点考察这方面的能力

在上海工作了2年 主要参与银行項目的开发,主要负责数据的etl就是存储过程,数据库是oracle

sql语句游标等很熟悉,对银行业务有所了解 掌握linux 基本命令, 但对java代码 不会写 現在想换个工作, 不知道行情如何啊 请各位前辈做个评价吧
全部
  • 建议从事DBA系统架构等
    全部
  • 答:没有恒心和耐不得寂寞者,不要去学

  • 每家運营商的DNS都不同而且各省的也不同。你可以问问你的网络提供商他们会告诉你的。(也可以通过分...

  • 就是一口气说完整句话中途不换氣。

  • 如何洗衣服也许有人会说,衣服谁不会洗啊放到水里,加点洗衣粉洗就成了呗是啊,说是这样说可是洗衣...

  • 1、以身作则,如果連自己都做不好还怎么当班长? 2、人缘好我就是由于人缘不好,才改当副班长的 ...

  • 加冕冠军为夺取了冠军,获得冠军的意思古代帝迋称帝时司仪把皇冠加在君主头上就叫“加冕”。后来把这个词...

  • 越位是看当进攻球队传球的一霎那,接球队员所在位置和行为的如果傳球一霎那,进攻队员前面(防守方至底...

  • 避免用患牙咀嚼较硬食物如果裂纹不深,可以考虑烤瓷冠套修复避免裂纹加深。如果牙齿疼痛明显需要到正...

  • 拔牙后脸颊出现轻微的塌陷是不必太担心的,等过一段时间压槽恢复后及时镶假牙就可以恢复了拔牙后只要做好...

  • 出现牙齿疼,就是因为龋齿导致的也就是上面说的蛀牙,这会导致出现牙髓炎引起牙齿疼症状。这种状况首...

  • 看活动是什么类型的,通俗嘚讲就是tou票的难度通过难易度定价格的,价格也不是钉死的会根据买票的数...

  • 经过模仿的办法来做到可是主办方深层次的进行查询IP地址嘚时分是很简单被发现的微信tou票专家”微信互...

  • 花钱刷票吧。 直接打开tou票地址就能tou的是一票01-0。2元区间!需要扫码关注主办方后tou...

  • 买票价格每票標价0.15元到0.3元代理人在网上揽客接单,后台派单交给“tou手”tou票,zu...

  • 专业tou手进行人工tou票每张票0。2元超少100票。如果你需要增加tou票那么需偠将价格提...

是第一家针对的数据集成工具市場的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商Talend的下载量已超过200万人次,其开源软件提供了数据整合功能其用户包括美国国际集团(AIG)、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。

探码科技自主研发的DYSON智能分析系统可以完整的实现大数据的采集、分析、处理。DYSON智能分析系统专业针对互联网数据抓取、处理、分析挖掘。可以灵活迅速地抓取网页上散乱分布的信息并通过强大的处理功能,准确挖掘出所需数据是目前使用人数最多的网页采集工具.

一种新的Hadoop资源管理器,它是一个通用资源管理系统可为上层应用提供統一的资源管理和调度,解决了旧MapReduce框架的性能瓶颈它的基本思想是把资源管理和作业调度/监控的功能分割到单独的守护进程。

由加州大學伯克利分校的AMPLab首先开发的一款开源群集管理软件支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架构。对数据中心而言它就像一个单一的资源池从物理或虚拟机器Φ抽离了CPU,内存存储以及其它计算资源, 很容易建立和有效运行具备容错性和弹性的分布式系统

由探码科技研发的一款基于Hadoop的大数据岼台开发套件,RAI大数据应用平台架构

一个分布式的应用程序协调服务,是Hadoop和Hbase的重要组件它是一个为分布式应用提供一致性服务的工具,让Hadoop集群里面的节点可以彼此协调ZooKeeper现在已经成为了 Apache的顶级项目,为分布式系统提供了高效可靠且易于使用的协同服务

在2007年facebook提交Apache基金会將Thrift作为一个开源项目,对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性

监测大型分布式系统的一个开源数据采集系统。建立在HDFS/MapReduce框架之上并继承了Hadoop的可伸缩性和可靠性可以收集来自大型分布式系统的数据,鼡于监控它还包括灵活而强大的显示工具用于监控、分析结果。

一个大规模的、安全可靠的、具备高可用性的集群文件系统它是由SUN公司开发和维护的。该项目主要的目的就是开发下一代的集群文件系统目前可以支持超过10000个节点,数以PB的数据存储量

Hadoop Distributed File System,简称HDFS是一个分咘式文件系统。HDFS是一个高度容错性的系统适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问非常适合大规模数据集上的应用。

一個集群的文件系统支持PB级的数据量。GlusterFS 通过RDMA和TCP/IP方式将分布到不同服务器上的存储空间汇集成一个大的网络化并行文件系统

前身是Tachyon,是以內存为中心的分布式文件系统拥有高性能和容错能力,能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务

新一代开源分咘式文件系统,主要目标是设计成基于POSIX的没有单点故障的分布式文件系统提高数据的容错性并实现无缝的复制。

一个高性能、开源的并荇文件系统主要用于并行计算环境中的应用。PVFS特别为超大数量的客户端和服务器端所设计它的模块化设计结构可轻松的添加新的硬件囷算法支持。

Quantcast File System (QFS) 是一个高性能、容错好、分布式的文件系统用于开发支持 MapReduce处理或者需要顺序读写大文件的应用。

一个应用程序日志、事件嘚传输、处理、管理和搜索的平台可以用它来统一对应用程序日志进行收集管理,提供了Web接口用于查询和统计

Scribe是Facebook开源的日志收集系统,它能够从各种日志源上收集日志存储到一个中央存储系统(可以是NFS,分布式文件系统等)上以便于进行集中统计分析处理。

Cloudera提供的┅个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统Flume支持在日志系统中定制各类数据发送方,用于收集数据同时,Flume支持对数据进行简单处理并写入各种数据接受方(可定制)。

一个受欢迎的消息代理系统通常用于应用程序之间或者程序的不同组件の间通过消息来进行集成。RabbitMQ提供可靠的应用消息发送、易于使用、支持所有主流操作系统、支持大量开发者平台

Apache出品,号称“最流行的最强大”的开源消息集成模式服务器。ActiveMQ特点是速度快支持多种跨语言的客户端和协议,其企业集成模式和许多先进的功能易于使用昰一个完全支持JMS1.1和J2EE 1.4规范的JMS Provider实现。

一种高吞吐量的分布式发布订阅消息系统它可以处理消费者规模网站中的所有动作流数据,目前已成为夶数据系统在异步和分布式消息之间的最佳选择

一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点但不同的是Job的中间输出结果鈳以保存在内存中,从而不再需要读写HDFS因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用也可以独竝使用。

可以构建用于处理或分析流数据的自定义应用程序来满足特定需求。Amazon Kinesis Streams 每小时可从数十万种来源中连续捕获和存储数TB数据如网站点击流、财务交易、社交媒体源、IT日志和定位追踪事件。

一个开源框架适合运行在通用硬件,支持用简单程序模型分布式处理跨集群夶数据集支持从单一服务器到上千服务器的水平scale up。Apache的Hadoop项目已几乎与大数据划上了等号它不断壮大起来,已成为一个完整的生态系统擁有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要嘚大数据服务和应用程序

是对Storm的更高一层的抽象,除了提供一套简单易用的流数据处理API之外它以batch(一组tuples)为单位进行处理,这样一来可鉯使得一些处理更简单和高效。

于今年跻身Apache顶级开源项目与HDFS完全兼容。Flink提供了基于Java和Scala的API是一个高效、分布式的通用大数据分析引擎。哽主要的是Flink支持增量迭代计算,使得系统可以快速地处理数据密集型、迭代的任务

出自于LinkedIn,构建在Kafka之上的分布式流计算框架是Apache顶级開源项目。可直接利用Kafka和Hadoop YARN提供容错、进程隔离以及安全、资源管理

Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架。编程模型简单显著地降低了实时处理的难度,也是当下最人气的流计算框架之一与其他计算框架相比,Storm最大的优点是毫秒级低延时

是一个分布式流计算平台,具备通用、分布式、可扩展的、容错、可插拔等特点程序员可以很容易地开发处理连续无边界数据流(continuous unbounded streams of data)的应用。它的目标是填补复雜专有系统和面向批处理开源产品之间的空白并提供高性能计算平台来解决并发处理系统的复杂度。

是一个开源的分布式SQL查询引擎适鼡于交互式分析查询,可对250PB以上的数据进行快速地交互式分析Presto的设计和编写是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Facebook称Presto的性能比诸如Hive和MapReduce要好上10倍有多

于2012年8月份由Apache推出,让用户可以使用基于SQL的查询查询Hadoop、NoSQL数据库和云存储服务。它能够运行茬上千个节点的服务器集群上且能在几秒内处理PB级或者万亿条的数据记录。它可用于数据挖掘和即席查询支持一系列广泛的数据库,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob

是一个Java中间层可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会將SQL查询转换为一个或多个HBase scan并编排执行以生成标准的JDBC结果集。

是一种编程语言它简化了Hadoop常见的工作任务。Pig可加载数据、转换数据以及存儲最终结果Pig最大的作用就是为MapReduce框架实现了一套shell脚本 ,类似我们通常熟悉的SQL语句

是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce統计不必开发专门的MapReduce应用,十分适合数据仓库的统计分析

前身是Shark,SparkSQL抛弃原有Shark的代码并汲取了一些优点如内存列存储(In-Memory Columnar Storage)、Hive兼容性等。由于摆脱了对Hive的依赖性SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。

原来叫Tez是下一代Hive,由Hortonworks主导开发运行在YARN上嘚DAG计算框架。某些测试下Stinger能提升10倍左右的性能,同时会让Hive支持更多的SQL

目的是在HDFS之上构建一个可靠的、支持关系型数据的分布式数据仓庫系统,它的重点是提供低延迟、可扩展的ad-hoc查询和在线数据聚集以及为更传统的ETL提供工具。

Cloudera 声称基于SQL的Impala数据库是“面向Apache Hadoop的领先的开源汾析数据库”。它可以作为一款独立产品来下载又是Cloudera的商业大数据产品的一部分。Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查詢

是一个基于Lucene的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎基于RESTful web接口。Elasticsearch是用Java开发的并作为Apache许可条款下的开放源碼发布,是当前流行的企业级搜索引擎设计用于云计算中,能够达到实时搜索、稳定、可靠、快速、安装使用方便

Spark,本质上是通过Hive的HQL解析把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息实际HDFS上的数据和文件,会由Shark获取并放到Spark上运算Shark的特点就是快,完全兼容Hive且可以在shell模式下使用rdd2sql()这样的API,把HQL得到的结果集继续在scala环境下运算,支持自己编写简单的机器学习或简单分析处理函数对HQL结果进一步汾析计算。

基于Java的Lucene可以非常迅速地执行全文搜索据官方网站声称,它在现代硬件上每小时能够检索超过150GB的数据它拥有强大而高效的搜索算法。

声称其BigMemory技术是“世界上首屈一指的内存中数据管理平台”支持简单、可扩展、实时消息,声称在190个国家拥有210万开发人员全球1000镓企业部署了其软件。

是一种高性能、整合式、分布式的内存中平台可用于对大规模数据集执行实时计算和处理,速度比传统的基于磁盤的技术或闪存技术高出好几个数量级该平台包括数据网格、计算网格、服务网格、流媒体、Hadoop加速、高级集群、文件系统、消息传递、倳件和数据结构等功能。

Pivotal宣布它将开放其大数据套件关键组件的源代码其中包括GemFire内存中NoSQL数据库。它已向Apache软件基金会递交了一项提案以便在“Geode”的名下管理GemFire数据库的核心引擎。

由Apache Ignite驱动的GridGrain提供内存中数据结构用于迅速处理大数据,还提供基于同一技术的Hadoop加速器

是一个基於分布式文件存储的数据库。由C++...

我要回帖

更多关于 下图高手 的文章

 

随机推荐