动漫其实我是 百度云,百度云

百度云——云上的日子 你我共享
登录百度帐号百度云是如何识别出 A 片的?
百度云里面大部分的XX影片都不能看了(不要问我是怎么知道的)百度云是如何识别出这类电影的。
按投票排序
119 个回答
没错,就是根据md5值,因为我改掉md5值之后还没有一部被温馨提示。改完md5值后上传的视频不会温馨提示,具体方法看这个链接。直接把要修改的文件拖到下载的批处理文件上就行。评论里有好多问各种问题的,其实我也是外行。如果已经温馨提示了,那应该就没救了。我用软件打开看过,除了那8秒温馨提示,其他部分的二进制数据基本都是0了,也就是说真的没东西了(刚开始和谐的时候,温馨提示的文件里内容还在,现在真没了)。这个问题我觉得没法解决了,要是有办法大神可以教我。修改md5值之后上传肯定不能秒传,目前我还没发现被和谐,以后不好说,但是应该不会太严重。评论还有说转格式的、压缩文件,应该都是可以的,因为md5也变了;单纯改后缀应该不行。貌似说了多余的话,被建议修改了。所以求分享的你们别闹了,我这么纯洁,根本听不懂你们在说啥。。
这个只看重召回率(宁可错杀一万不要放过一个)的话,图像识别的技术已经可以做到不错了。根据每一帧里面的图像抽取特征,然后跑个分类器就好了。Porn这种模式单一,重点突出,机位固定,然后人体各个部位pattern又那么明显,相信只要有足够的训练数据,并不是一个特别难的机器学习问题。当然你硬要拍两个奥特曼高达穿着盔甲干啥啥,估计不太好识别= = 但是人观众也是为了简单的刺激,你硬搞这么深奥的想必市场不怎么样吧?误杀一般都是加菲猫之类的....毕竟全身都是黄的。具体百度网盘是怎么做的,我猜是机器学习+MD5识别。如果我来干这个的话,先按照经典的方法做一个模型出来,特征就是视频图像识别的特征+文件名文本特征+文件格式,大小等特征。模型拿个常见分类器就行了。估计音频特征也可以,porn的音频特点也很明确(日语 or 英语那些词太明显了),一抓一个准。继续丧心病狂的话就加视频特征。连续多帧里面人数量的变化啦(人数量相对固定,大都是一到两个,三四个也有,再多就不是那么常见了);人物移动的pattern啦(很少大范围的移动,而更多是小范围的往复运动);发生的场景啦(大都是室内小空间,并连续很多分钟都是一个场景啦,偶尔有一些外景)。不过我觉得完全不需要这么复杂就可以做到很高的准确率了......有模型之后,每隔一天或者几天,具体根据模型效率和机器的负载来决定,在网盘的图片和视频数据上跑一遍,把不该有的东西干掉,然后记录下MD5码。 这些MD5码就是黑名单了,往后每次用户新上传的时候就用这个MD5码做一次判断,不该有的就不让你传了。就是一次哈希查找,效率很快,根据百度网盘本身极速上传功能推断,百度已经有了很成熟的MD5操作的模块了。这两个加起来就既满足了效果(靠机器学习模型每隔一段时间的精确判断),也满足了效率(MD5实时校验)。所以呢,你们不要以为改了MD5码就可以逃得过去了,过一段时间人家重跑自动识别算法时还是会被干掉的...这种内容我党管的那么严,搞不好部门领导就要被喊去喝茶的,不可能不好好做的...---------------------------------------闲扯的分割线--------------------------------色情内容识别是一个很认真的研究领域好咩。不过...干这个确实需要大量的训练数据。当年中科院计算所有一个组在做这方面的国家项目,黄色+反动内容识别。人家都是带着条子和公款去国外采购影片和轮子的东东回来做训练数据的......我不懂事的时候有个女朋友花钱太厉害,逼的没办法去一家前著名论坛网站打零工做过类似项目,不过是自动识别黄色/反动的文本...... 他们有积累了很久的人工识别的数据。招了不少人做类似鉴黄师的工作,三班倒每班连干八小时,拿一个简单的搜索引擎对用户发布的内容不停地用各种关键词搜,看到不该看的就删帖+搜集起来。然后这些人工识别的数据拿来给我们训练自动识别模型。当时为了提高识别效果我被迫看了好多训练数据。。。。。。我只能说......太刺激了....太暴力了....太有想象力了......我原先只知道有黄色的,有反动的,没想到还有黄色+反动的........你能想象拿四人帮做主角的XX小说么........看起来真是一种复杂的感受....类似比利时啤酒,无数种强烈风味的混合,造成了独特的饮用体验...总之,这对于纯洁的我实在是太下流了....一张白纸的我就这么被污染了...再也回不去了......喂,你们不要误会,我那个工作是做模型自动识别来着,不是人工看好么。。。而且也只是那半年工作很小的一部分。。。大部分时间还是在给他们做站内搜索和开发公司自己的基础C++库来着。人工谁要干啊,估计时薪只有十块钱,还要看那么多好恶心的东西...黄瓜茄子一看就会想呕怎么办......
索尼锁区,武媚娘等事件告诉我们,一定有些人看过之后就举报
我来提一套可能的半自动方案,当然现实中是怎么运作的我就不清楚了。--------------------------------------------------步骤1:数学筛选--------------------------------------------------------首先把百度云上的视频采样分析。例如每个片子截取100张图片,然后自动分析图片内容。值得注意的是,自动分析黄片内容不是不可能的,例如:使用颜色特征分析来测量图片中皮肤的面积。。。然后确定是不是黄片。使用颜色特征分析来测量图片中皮肤的面积。。。然后确定是不是黄片。我听说黄片中的人物一般都不穿衣服,所以整部片子中皮肤面积会占屏幕比重比较大,特征明显。不过我是好孩子所以也不清楚到底是不是真的。然后用一些算法进行评分处理。。例如:通过皮肤的位置和分布分析是不是黄片儿:这些数学算法能把图片特征量化,通过这些量化的数据进一步分析做到黄片的筛选。--------------------------------------------------步骤2:玄学筛选--------------------------------------------------------光通过数据分析不可能做到完美筛选全部黄片,但是本着宁可错杀一千不能放过一部的原则,我们可以通过实践(改变通过的变量)肯定找到一个能筛选出所有黄片的算法。这个算法可能误杀大量正(绅)常(士)视频,但是也能排除绝大多数非黄片。剩下来的糟粕可以进一步用机器学习来筛选。。例如某同学的硕士毕业论文:当然,也可以跳过第一步直接上第二部,如果计算能力和精确度都不是问题的话。--------------------------------------------------步骤3:人工筛选--------------------------------------------------------最后剩下的交给他审核一下。。。------------------------------------------------步骤4:举报机制--------------------------------------------------------人人都是小小鉴黄师比如这类AV。。。就需要各位小鉴黄师们的努力了。
啊……我来详细的分析下吧!写的很乱不知道你们能不能看懂1.文件名我无聊做种时候特意留意了下,文件夹带有敏感字的迅雷和百度云都是无法离线的,百度云应该有自己的判断机制,某些字眼自动过滤,但是!有些人性化的文件名就无法判断了延伸:你们都没想到的一点,百度云的H哪来的呢?离线来的,上传来的,上传来的的哪来的呢?种子下载的!再说说离线的,离线下载的那肯定是用种子或者磁力链了,既然这样就简单多了,你离线哪些百度云那肯定有记录,某些种子和磁力链里离线出来的文件一律屏蔽直接八秒,这样不就搞定大部分你懂的文件了么???比什么md5方便多了~~~啊思维混乱不知道该怎么说了,有空再更新吧(≧▽≦)
Md5是必杀技,但是对于百度这家广告公司来说,行为统计分析才是拿手好戏,下载量时间分布,在线播放快进频率,文件命名规则,跳转到网盘之前的搜索行为,再对接网友举报,av数据库,离线下载来源分析,根本就不需要人工审核,可疑概率小于一定值的百度直接放过。(乱猜的)
快进次数和每次播放时长吧
我倒是觉得这是从视频文件本身入手的,例如,我网盘里的视频,MP4格式的基本都挂了,rmvb小半挂了,rm文件没有挂,mov挂了,mpg没挂,flv没挂~~~~泥蒙懂的,就算你点赞我也不会给你们的!请勿私信!
很简单:1.视频截图
1.1 图片算法
人工筛选审核2.网友举报
2.1 算法自动屏蔽
2.2 人工审核
机器学习当然理论上是可行的,但这个代价也太大了吧?对上传的每部电影sampling一下,再跑个分类器,我都替百度心疼电费。我还是觉得MD5方法+文件名关键字匹配最靠谱。如果MD5是上传的文件自动生成的话,找个视频修改工具,只需要改一点点例如删一帧之类的,MD5就彻底改变了。不就是扫个黄么,百度用不着那么拼吧。
我猜测是爬各大色情网站或种子网站里 porn 分类里 A 片的,然后保存 hash 值到一个数据库。
不是单纯的某种识别方法MD5+文件名判断+内容识别
其实我觉得是百度导入了日本片商和欧美片商的列表,比如带有IPZ、SOD、X-ART、BABES之类的,就都干掉……
去搜集大量黄色图像作为正样本,还有大量正常图像作为负样本,以现在的机器学习技术,可以轻易的训练分类器将两者分辨开,百度有图片搜索,百度识图,技术和硬件上不是问题。之后判断一下视频中有多少帧是黄色图像就可以了。这样改MD5也是没用的。
哼,下次上传非洲A片!看你怎么识别。
看了各位大神的回复,真心觉得相声资料没有被误杀简直太三生万幸了。。。
忘记在哪里看到的了。据说是根据来源的地址又或者是md5这类的文件指纹来比对的。
目前有一套技术方案,可以对视频的某些时间段通过图像识别技术来判断是否属于成人内容。图像识别这方面应该是有相应的成熟的算法,可能会误判,但具体的就不清楚了(当然也不排除直接逐帧进行判断,不过这样可能会增加负荷)。这个技术我给你通俗解释一下,就是用程序把视频的一些片段截取成图片,然后通过程序来判断这些图片的内容是否符合程序的判断规则。再通俗一点儿,就是把原来给鉴黄师干的活儿给自动化、系统化了。当然以上都是我的猜测,具体的实现方法我不清楚……而且我很怀疑百度是否是使用的这一套方案……所以暂且存疑吧。。。当然据我的观察,其实这个方案有很大的漏洞,而且你们在实际使用过程中应该也会发现,有一部分 A 片不会被干掉,原因就是这些视频没有识别出来。PS.据说这套方案貌似是清华大学还是那儿的知名大学的开发组开发的……具体不清楚,建议去一些相对权威的资料网站查查,我也是从公开资料中看到的……出处忘了……
1、网盘里的文件,很多相同的,只需要上传、保存一次(其他人就是秒传了),所以,一旦发现有问题,也是 全部秒删2、根据 下载量 和 搜索量 发现 每日的热点文件,主要核查这些文件,就能把关80%了查看: 8385|回复: 338
无损单曲◎张宇『趁早』APE/百度云/30.8M
TA的每日心情衰 19:08签到天数: 25 天[LV.4]偶尔看看III
34a853df05e4cdd.jpg (159.93 KB, 下载次数: 69)
19:51 上传
QQ截图44.png (43.77 KB, 下载次数: 65)
19:51 上传
到后来才发现爱你是一种习惯
我学会和你说一样的谎
你总是要我在你身旁
说幸福该是什么模样
你给我的天堂
其实是一片荒凉
要是我早可以和你一刀两断
我们就不必在爱里勉强
可是我真的不够勇敢
总为你忐忑为你心软
毕竟相爱一场
不要谁心里带着伤
我可以永远笑着
扮演你的配角
在你的背后自己煎熬
如果你不想要
想退出要趁早
我没有非要一起到老
我可以不问感觉
继续为爱讨好
冷眼的看着你的骄傲
若有情太难了
想别恋要趁早
就算迷恋你的拥抱
要是我早可以和你一刀两断
我们就不必在爱里勉强
可是我真的不够勇敢
总为你忐忑为你心软
毕竟相爱一场
不要谁心里带着伤
我可以永远笑着
扮演你的配角
在你的背后自己煎熬
如果你不想要
想退出要趁早
我没有非要一起到老
我可以不问感觉
继续为爱讨好
冷眼的看着你的骄傲
若有情太难了
想别恋要趁早
就算迷恋你的拥抱
忘了就好...
爱已至此怎样的说法都能成为理由
我在这样的爱情里看见的
是男人的软弱
我可以永远笑着
扮演你的配角
在你的背后自己煎熬
如果你不想要
想退出要趁早
我没有非要一起到老
我可以不问感觉
继续为爱讨好
冷眼的看着你的骄傲
若有情太难了
想别恋要趁早
就算迷恋你的拥抱
游客,如果您要查看本帖隐藏内容请
该用户从未签到
dsaf冯绍峰染色rete我太热太热
该用户从未签到
下来听听,谢谢分亨!
该用户从未签到
真的很好听,不错的
切勿恶意灌水&
通用回复,请认真回复
TA的每日心情衰 20:39签到天数: 2 天[LV.1]初来乍到
不错不错~~~~~
TA的每日心情衰 20:39签到天数: 2 天[LV.1]初来乍到
不错不错~~~~~
请勿重复回帖
TA的每日心情衰 20:39签到天数: 2 天[LV.1]初来乍到
不错不错~~~~~
该用户从未签到
感谢分享,张宇很好听的一首歌
TA的每日心情无聊 19:48签到天数: 72 天[LV.6]常住居民II
宇哥上一集比较严肃,不太适应,加油!
该用户从未签到
很好的 音乐单曲
本站联系方式:QQ:
Powered by您的举报已经提交成功,我们将尽快处理,谢谢!
你找到想要移动的文件或文件夹,鼠标右键单击,弹出菜单,下光标找到“剪切”回车,在找到目标文件夹,不用打开,直接用右键单击,在弹出的菜单中选择“粘贴”回车,文件就...
大家还关注当前位置:&&其实我都知道A的主页
&分享文件分类文件大小网盘浏览收录时间
08-29 1&&跳页&&/11页&&第1页&&共11页&&615项&&

我要回帖

更多关于 其实我是 的文章

 

随机推荐