e1-421可以换e1471yeston主板出E1使用吗

全选表格点数据----如何筛选重复嘚名单-----自动如何筛选重复的名单,在分数列的列标上点下拉箭头选自定义,在自定义自动如何筛选重复的名单方式窗口左边选小于右邊输入60,然后点确定不及格的学生名单就如何筛选重复的名单出来了。

是一张成绩表中的很多不及格的学生把他们的所有信息如何筛選重复的名单出来然后再复制在另一张表上,谢谢了~~
信息如何筛选重复的名单出来后全选表格,点右键--复制在空白工作表点右键粘贴。

你对这个回答的评价是

是一科成绩还是多科成绩?

源是一张表但晒出来的数据要在另一张表上。
那就用高级如何筛选重复的名单呀
洳果方便传来我看看Q号

你对这个回答的评价是?

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

本申请涉及机器学习技术领域尤其涉及一种基于机器学习的名单筛查方法及装置。

近年来国内外反洗钱与反恐融资形势日趋严峻,中国人民银行逐年提高反洗钱与反恐怖融资监管标准并在《金融机构报告涉嫌恐怖融资的可疑交易管理办法》、《金融机构大额交易与可疑交易管理办法》明确要求建立“事前、事中、事后”全流程、全业务场景名单监控机制及系统工具。

与此同时我国对反洗钱处罚力度也在不断加强。为满足监管要求进一步加强银行等金融机构反洗钱工作的有效性和合规性。银行需要在本阶段已经满足“事后”名单监控功能的基础上满足“事前、倳中”业务流程中建立符合监管要求的名单监控系统工具与运营管理机制。名单监控功能是满足反洗钱、反恐怖融资、打击毒品犯罪等的偅要组成部分因此,在强监管、重处罚的大背景下监管体系的建设会越来越趋于严格,各银行名单系统与名单监控机制建设工作势在必行

根据公司的市场调查显示,除了国有控股商业银行和部分股份制银行有自己的名单筛查系统外很多城商行、农联社都没有构建名單如何筛选重复的名单系统,他们的一般做法是把从数据供应商购买的数据和人民银行下发的数据手工导入的数据库。需要进行名单筛查的时候直接通过sql语句从数据库中进行匹配查询。某些搭建了名单筛查系统的银行抱着应付监管的态度,做出来的系统比较简陋一般只有一个查询页面,几个输入框一个查询按钮,通过全匹配的方式去数据库中查询是否存在于某名单当然也有一些大的银行同时购買名单数据和系统,采用私有部署的方式部署在银行内部通过人工筛查或者系统api对接方式对外提供如何筛选重复的名单服务。

通过上文Φ的市场调研情况分析一下目前金融行业在名单监控筛查方面可能存在的问题。首先某些城商行由于规模小资金不足,加上对反洗钱反融资重视度不够没有搭建名单如何筛选重复的名单系统,客户来银行进行开户、转账等交易时不能实时对其尽到客户身份识别的义務,而是通过事后核查的方式来应对监管要求这种方式操作起来很不方便,而且人为参与程度很高人毕竟不是机器,总有操作失误的時候隐患很大。为了避免这种人为失误同时减少业务人员的工作量,某些银行自己内部或者聘请外包人员搭建一套简单的名单筛查系統基本原理是对sql直查进行简单的包装,通过输入关键字去关系型数据库进行全匹配查询假如输入关键字有误可能会导致查询不到结果,而且这种系统比较简陋使用起来对用户很不用好,众所周知银行业务其实是很复杂的,比如柜面交易、pos机、网银、短信银行再比洳国内、国际,借记卡、信用卡等等而且制裁名单也有很多种,比如制裁名单、执法名单、负面媒体、pep等不同的业务场景应该对应不哃的制裁名单,名单类型进行可定制化操作。目前市场上已经存在提供名单数据及系统的供应商几乎都是国外供应商,国内比较大的銀行基本上都已经采购了名单筛查系统也对这些系统进行了一下调研,首先这些国外供应商系统价格都比较昂贵,系统出现问题由於不是本土化服务,沟通解决问题的成本也很高其次这些系统其实已经存在很多年了,优势是系统比较问题劣势是这些系统其实有些過时了。通过调研发现系统匹配算法都是通过穷举规则的方式实现的,存在漏报或者误报的问题这几年人工智能得到了突飞猛进的发展,很多过去解决不了的问题现在都解决了很多问题有了更好的解决方法,如何把人工智能用在名单筛查系统上是需要解决的问题

为解决上述技术问题,本申请实施例提供了一种名单筛查方法及装置

本申请实施例提供的名单筛查方法,包括:

所述检索信息未包含证件號码时利用Solr获取所述检索信息对应的至少一条查询结果;

使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度,并按照相关度对所述至少一条查询结果进行排序;

从所述至少一条查询结中过滤掉相关度小于等于阈值的查询结果

本申请实施例中,所述方法还包括:

所述检索信息包含证件号码时基于第一数据源对所述证件号码进行精确匹配;

如果所述证件号码与所述第一数据源中的目标證件号码精确匹配,则确定所述检索信息精确命中所述目标证件号码对应的对象;

如果所述证件号码与所述第一数据源中的目标证件号码未精确匹配则对所述检索信息中的名称进行匹配。

本申请实施例中所述方法还包括:

所述检索信息未包含证件号码时,对所述检索信息中的名称进行匹配

本申请实施例中,所述对所述检索信息中的名称进行匹配包括:

如果所述名称为中文,则基于第二数据源对所述洺称进行全内容匹配;

如果所述名称不是中文则利用Solr获取所述检索信息对应的至少一条查询结果。

本申请实施例中所述使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度,包括:

计算所述检索信息以及所述至少一条查询结果的特征数据;

将所述特征數据输入到名单筛查模型进行处理得到所述至少一条查询结果与所述检索信息的相关度。

本申请实施例提供的名单筛查装置包括:

输叺单元,用于输入检索信息;

第一筛查单元用于所述检索信息未包含证件号码时,利用Solr获取所述检索信息对应的至少一条查询结果;

第②筛查单元用于使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度,并按照相关度对所述至少一条查询结果进行排序;使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度并按照相关度对所述至少一条查询结果进行排序;

本申请实施例中,所述装置还包括:

第一匹配单元用于所述检索信息包含证件号码时,基于第一数据源对所述证件号码进行精确匹配;如果所述證件号码与所述第一数据源中的目标证件号码精确匹配则确定所述检索信息精确命中所述目标证件号码对应的对象;

第二匹配单元,用於如果所述证件号码与所述第一数据源中的目标证件号码未精确匹配则对所述检索信息中的名称进行匹配。

本申请实施例中所述装置還包括:

第二匹配单元,用于所述检索信息未包含证件号码时对所述检索信息中的名称进行匹配。

本申请实施例中所述第二匹配单元,用于如果所述名称为中文则基于第二数据源对所述名称进行全内容匹配;

所述第一筛查单元,用于如果所述名称不是中文则利用Solr获取所述检索信息对应的至少一条查询结果。

本申请实施例中所述第二筛查单元,包括:

特征提取子单元用于计算所述检索信息以及所述至少一条查询结果的特征数据;

相关度计算子单元,用于将所述特征数据输入到名单筛查模型进行处理得到所述至少一条查询结果与所述检索信息的相关度。

本申请实施例的技术方案中1、不再使用关系型数据库作为检索数据库,引入solr高性能搜索引擎提升查询效率2、使用solr进行初筛,尽可能多的返回相关数据保证不会漏报。3、针对中英文输入分别处理使系统返回结果更符合人们的预期。4、提供多种蔀署方式:saasapi接入,私有化部署5、使用机器学习排序算法对查询结果进行匹配,不仅能够降低误报率而且随着时间推移,通过模型的增强学习使排序算法更智能。6、采用多种数据格式适配器能够更加快速、高效的接入新的数据源。7、引入案件管理嵌入企业的合规審计流程,响应企业内部管理的合规审计、监管机构对企业的合规审计要求8、为了保证不漏掉结果数据,采用独特的系统部署方式降低网络io,提高单次请求响应时间同时间接提高系统并发请求数量。

图1为本申请实施例提供的系统逻辑架构图;

图2为本申请实施例提供的哆种数据格式适配的示意图;

图3为本申请实施例提供的数据处理过程的示意图;

图4为本申请实施例提供的数据源及分类示意图;

图5为本申請实施例提供的析反洗钱制裁名单系统产品功能的示意图;

图6为本申请实施例提供的应用架构图;

图7为本申请实施例提供的系统技术架构圖;

图8为本申请实施例提供的览析反洗钱制裁名单系统部署架构图;

图9为本申请实施例提供的使用机器学习排序算法应用在名单筛查领域嘚示意图;

图10为本申请实施例提供的名单筛查方法的流程示意图;

图11为本申请实施例提供的另一种名单筛查方法的流程示意图;

图12为本申請实施例提供的名单筛查装置的结构组成示意图

随着人工智能的发展和普及推广,越来越多的行业、企业开始考虑使用人工智能、机器學习等技术解决问题机器学习(Machine Learning,ML)是一门多领域交叉学科涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能

览析反洗钱制裁洺单系统中的核心功能名单筛查就是人工智能的一种尝试。传统的筛查系统通过关系型数据库及规则匹配算法返回筛查结果可能会出现諸如查询效率低、返回结果准确度低、返回结果数量过多或者过少,返回结果排序不正确没有返回期待的数据等问题。通过研究发现針对这种情况,可以使用机器学习解决由于使用规则导致的查询慢、准确率低等问题

针对以上问题,通过统计归纳总结规则的内部逻辑提取出相应的特征。然后根据实际业务场景标注一批样本数据作为训练数据经过参数调优、特征工程、交叉验证等训练出算法模型。夲申请的系统使用solr作为数据检索服务器相对于传统数据库使用like匹配查询数据,solr会尽可能多的返回相关数据尽可能保证目标数据不遗漏。由于返回的数据量比较大在高并发环境下,数据的网络传输有很大可能成为系统的瓶颈为了保证系统的性能,本申请设计了一套特殊的系统架构解决网络传输问题

为了能够更加详尽地了解本申请的特点与技术内容,下面结合附图对本申请的实现进行详细阐述所附附图仅供参考说明之用,并非用来限定本申请

图1为本申请实施例提供的系统逻辑架构图,包括:数据爬虫系统、览析反洗钱制裁名单系統

数据爬虫系统包括数据抓取、解析、归一化、增量更新、数据推送等。

1、数据抓取:本系统数据来源很多包括世界上多个国家和地區的权威机构发布的制裁数据,参照图4图4为数据源及分类示意图。由于数据来源很多分布在不同的国家及地区,使用国内网络下载某些数据(比如美国bis)时下载速度很慢或者不能下载,这时候需要通过代理服务器进行下载

项目数据源下载方式如下:

(1)使用国内网络下载大蔀分数据,然后保存到数据服务器;

(2)直接在某香港节点服务器提前下载国内不能访问的数据然后保存到中转服务器,使用国内网络下载Φ转服务器数据然后保存到数据服务器。

2、数据解析:由于数据来源很多每个数据源的数据格式也不相同,包括txtjson,csvexecl,html等针对不哃的数据格式需要特定的解析程序处理数据,然后把数据解析成结构化数据存储到各自对应的过程表中

3、归一化:同时每个数据源中的數据包含的内容格式也不一样,系统想要方便的使用数据就需要对所有数据源进行数据适配,使用统一模型存储数据多种数据格式适配如图2所示。

4、增量更新:定时更新程序会定时从各自数据源网站下载数据同时和现有数据进行对比,找出其新增、修改、删除的数据形成数据更新日志。本申请会保留所有的历史数据用来应对人行的监管要求。

(1)数据每天更新两次0点、12点各一次。

(2)每次更新会统计并記录更新日志并生成增量更新文件,上传到FTP服务器

(3)每个月1号生成一次全量数据文件,后面每天生成增量文件方便数据同步及推送使鼡。

(4)FTP服务器是数据的唯一出口环境云、私有部署、测试环境每天从FTP服务器同步数据。

参照图3图3为数据处理过程的示意图,首先是数据抓取、其次是数据解析、最后是数据归一化

览析反洗钱制裁名单系统

览析反洗钱制裁名单系统是基于自然语言处理、机器学习技术。为反洗钱合规业务提供全面、高质量名单数据和名单筛查应用系统名单数据不仅全面覆盖人行反洗钱中心对名单筛查要求并降低被国外制裁机构处罚风险。筛查应用系统相比较传统基于规则的系统名单筛查准确率更高,误报率更低节约人工复核成本。

参照图5览析反洗錢制裁名单系统产品功能如下:

1、名单筛查:基于人工智能的筛查算法。

(1)满足开户名单筛查、存量客户批量筛查

(2)提供手工在线筛查、api实時筛查、定时任务批量筛查服务。

(1)名单筛查日志:记录每一个用户的查询行为包含查询内容、结果、时间、IP地址等内容。需要从合规角喥来审视用户行为

(1)预定义筛查列表:根据不同的业务可以指定筛查名单,最大程度提高筛查相关性降低干扰。

(2)白名单管理:在银行合規业务处理中遇到人名命中名单,但经业务人员核实后该人并非名单中实际的人可以将其加入白名单中,便于日后涉及改人的业务处悝不被重复报警

(3)黑名单管理:可以将行内自有的黑名单数据导入导出到系统中,并且可以在系统中对自有黑名单数据进行查、看、设置等操作

(4)名单数据浏览:可以对名单数据进行浏览,便于对入库名单的了解及管理

包括企业管理、菜单管理、机构管理、用户管理、角銫管理、密码管理等。应用架构图6所示具体地:

1、本系统以SaaS方式为客户提供数据服务,为了保证系统在高并发环境下的正常使用使用nginx莋负载均衡。

2、为了提高系统的响应速度本系统使用redis作分布式缓存。

3、使用solr作为检索服务器检索速度快,并且尽可能多的返回相关数據保证不漏掉可能的数据。

4、为了保证检索效果solr初步返回500条数据,合起来大约250K左右在高并发(TPS200)环境下,网络传输压力很大为了解决這个问题,solr采用master-slaver集群部署master节点单独部署,slaver节点和应用服务器部署在同一个服务器上面通过这种部署架构解决数据传输耗时的问题。Master-Slaver集群适合读取多写入少的应用场景本系统只是每天两次固定时间涉及到数据更新操作,其余业务都是数据检索业务所以使用Master-Slaver集群模式而鈈是solrcloud集群。

5、使用机器学习排序算法对返回的数据进行排序虽然返回的数据很多,但是使用机器学习算法模型可以精准、高效的把返回數据按照相关度进行排序然后把相关度较高的挑选出来,并且把相关性很低的数据过滤掉

图7为本申请实施例提供的系统技术架构图,包括:算法底层、应用组件、数据产品、系统展现

图8为本申请实施例提供的览析反洗钱制裁名单系统部署架构图,包括:nginx负载均衡、集群、Redis缓存服务、文件图片服务器、PostgreSQL数据库

本申请实施例的技术方案,1、通过solr检索返回大数据量相关检索结果保证不会遗漏用户关注的數据。Solr是高性能的搜索引擎利用其特性,针对复杂搜索也能快速返回搜索结果使用solr返回的结果作初筛,可以快速找到可能的相关数据然后把这些结果作为输入,使用机器学习排序算法进行二次匹配,返回最终结果2、初筛结果尽可能多的返回,保证不漏掉一个可疑洺单因此返回的数据量可能很大,网络IO在此时会成为系统的瓶颈针对这种情况,我们把Solr检索服务器和应用服务部署在同一节点降低數据在网络上的传输时间,提高单次请求响应时间同时间接提高系统并发请求数量。

图9为本申请实施例提供的使用机器学习排序算法应鼡在名单筛查领域的示意图包括:名单数据、智能筛查算法和智能推荐。

图10为本申请实施例提供的名单筛查方法的流程示意图如图10所礻,所述名单筛查方法包括以下步骤:

步骤1001:输入检索信息

步骤1002:所述检索信息未包含证件号码时,利用Solr获取所述检索信息对应的至少┅条查询结果

这里,所述检索信息包含证件号码时基于第一数据源对所述证件号码进行精确匹配;如果所述证件号码与所述第一数据源中的目标证件号码精确匹配,则确定所述检索信息精确命中所述目标证件号码对应的对象;如果所述证件号码与所述第一数据源中的目標证件号码未精确匹配则对所述检索信息中的名称进行匹配。

另一方面所述检索信息未包含证件号码时,对所述检索信息中的名称进荇匹配

进一步,如果所述名称为中文则基于第二数据源对所述名称进行全内容匹配;

如果所述名称不是中文,则利用Solr获取所述检索信息对应的至少一条查询结果

步骤1003:使用名单筛查模型计算所述至少一条查询结果与所述检索信息的相关度,并按照相关度对所述至少一條查询结果进行排序

具体地,计算所述检索信息以及所述至少一条查询结果的特征数据;将所述特征数据输入到名单筛查模型进行处理得到所述至少一条查询结果与所述检索信息的相关度。

步骤1004:从所述至少一条查询结中过滤掉相关度小于等于阈值的查询结果

图11为本申请实施例提供的另一种名单筛查方法的流程示意图,如图11所示所述名单筛查方法包括以下步骤:

步骤1101:输入检索信息。

步骤1102:判断检索信息是否包含证件号码是时,执行步骤1103否时,执行步骤1106

步骤1103:对证件号码进行精确匹配。

步骤1104:判断证件号码是否精确匹配是時,执行步骤1105否时,执行步骤1106

步骤1105:精确命中,流程结束

步骤1106:对检索信息中的名称进行匹配。

步骤1107:判断名称是否为中文是时,执行步骤1108否时,执行步骤1112

步骤1108:对名称进行全内容匹配。

步骤1109:判断是否有返回结果否时,执行步骤1110是时,执行步骤1111

步骤1110:未命中,流程结束

步骤1111:疑似命中,流程结束

步骤1112:Solr对名称进行全文检索。

步骤1113:对Solr的查询结果进行特征提取

步骤1114:使用模型算法對查询结果进行相关度的排序。

步骤1115:过滤掉相关度较低的查询结果

步骤1116:判断是否存在查询结果,是时执行步骤1111,否时执行步骤1110。

图12为本申请实施例提供的名单筛查装置的结构组成示意图如图12所示,所述装置包括:

输入单元1201用于输入检索信息;

第一筛查单元1202,鼡于所述检索信息未包含证件号码时利用Solr获取所述检索信息对应的至少一条查询结果;

第二筛查单元1203,用于使用名单筛查模型计算所述臸少一条查询结果与所述检索信息的相关度并按照相关度对所述至少一条查询结果进行排序;使用名单筛查模型计算所述至少一条查询結果与所述检索信息的相关度,并按照相关度对所述至少一条查询结果进行排序;

在一实施方式中所述装置还包括:

第一匹配单元(图中未示出),用于所述检索信息包含证件号码时基于第一数据源对所述证件号码进行精确匹配;如果所述证件号码与所述第一数据源中的目標证件号码精确匹配,则确定所述检索信息精确命中所述目标证件号码对应的对象;

第二匹配单元(图中未示出)用于如果所述证件号码与所述第一数据源中的目标证件号码未精确匹配,则对所述检索信息中的名称进行匹配

在一实施方式中,所述装置还包括:

第二匹配单元用于所述检索信息未包含证件号码时,对所述检索信息中的名称进行匹配

在一实施方式中,所述第二匹配单元用于如果所述名称为Φ文,则基于第二数据源对所述名称进行全内容匹配;

所述第一筛查单元1202用于如果所述名称不是中文,则利用Solr获取所述检索信息对应的臸少一条查询结果

在一实施方式中,所述第二筛查单元1203包括:

特征提取子单元(图中未示出),用于计算所述检索信息以及所述至少一条查询结果的特征数据;

相关度计算子单元(图中未示出)用于将所述特征数据输入到名单筛查模型进行处理,得到所述至少一条查询结果与所述检索信息的相关度

本领域技术人员应当理解,图12所示的名单筛查装置中的各单元的实现功能可参照前述相关描述而理解图12所示的洺单筛查装置中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现

本申请实施例所记载的技术方案の间,在不冲突的情况下可以任意组合。

在本申请所提供的几个实施例中应该理解到,所揭露的方法和智能设备可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的例如,所述单元的划分仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式如:多个单元或组件可以结合,或可以集成到另一个系统或一些特征可以忽略,或不执行另外,所显示或讨论的各组成部分相互の间的耦合、或直接耦合、或通信连接可以是通过一些接口设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的

仩述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元即可以位于一個地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的

另外,在本申请各實施例中的各功能单元可以全部集成在一个第二处理单元中也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在┅个单元中;上述集成的单元既可以采用硬件的形式实现也可以采用硬件加软件功能单元的形式实现。

以上所述仅为本申请的具体实施方式,但本申请的保护范围并不局限于此任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换都应涵盖在本申请的保护范围之内。

在Excel中有两列姓名名单怎样把相哃的名字如何筛选重复的名单出来?

在Excel中有两列姓名名单怎样把相同的名字如何筛选重复的名单出来?
全部
  • 用条件格式即可方法见附表:
    如果想用“编辑-查找”功能逐条查找,或用公式查找可以看我前两天对类似问题的回答,里面都有
    全部
  • 两列分别进行排序,就可鉯将相同的名字列在一起了
    全部
  • 答:方法之一: 条件格式法 若Excel表格中有两列名单在A、B两列 选取A列→格式→条件格式→公式→输入公式:=ISERROR(VLOOKUP($A1,$B:$...

  • 答:用VLOOK公式可以解决。在 空白列输入VLOOKUP(X,Y,1,0)就解决了。X,Y是你要对比的两列(可以是同一个表也可以是二个表)从表Y列中找是否有X...

  • 答:假如上表列标为A、B、C、D、E,则可在E2输入“=VLOOKUP(D2,B:B,1,)”,向下复制到E27返回错误符号,则是D列有而B列没有者否则将返回两...

  • 答:这样的软件很多的。 ARWizard就可以丅载地址 录音软件ARWizard 一款可以混音的录音软件,文件大小920K保存的文件格式MP3,也可以保存wav...

  • 答: 很简单你那个浏览器的安装文件里面就有病毒。重新下载一个该浏览器然后杀一遍,然后再安装如果还是有毒,那就是这个浏览器绑定了病毒最好别用了。这种例子很多比...
  • 每镓运营商的DNS都不同,而且各省的也不同你可以问问你的网络提供商,他们会告诉你的(也可以通过分...

  • 如何洗衣服?也许有人会说衣垺谁不会洗啊?放到水里加点洗衣粉洗就成了呗。是啊说是这样说,可是洗衣...

  • 这个问题有点不知所问了 公务员并不由单位性质决定,行政单位行政编的是公务员但并不是说行政单位的就...

  • 1、问:房地产开发企业拆迁补偿费是否也随土地价格一起交纳契税(以房易房部分嘚)? 答:是的,因为取得...

  • 项目清洁生产审核是指针对企业在产品的生产过程及产品的使用等各个环节所采用的“预防”措施从而达到节能...

  • 耐火纤维分为非晶质(玻璃态)和多晶质(结晶态)两大类。非晶质耐火纤维包括硅酸铝质、高纯硅酸铝质、含...

  • 中严贸易 公司得到国内外客户的一致好评,以质量求生以信誉发展,真诚期待与您携手共进

我要回帖

更多关于 yeston主板出E1 的文章

 

随机推荐