从CATIA中,到Rhinoceros,最后到C4D中间怎么word转换器?

据说mxnet的发展趋势回会比caffe好
推荐两个配置&br&-
&a href=&///?target=https%3A///spf13/spf13-vim& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&spf13/spf13-vim · GitHub&i class=&icon-external&&&/i&&/a& 再不用折腾了。。。看 star 数就知道很牛逼了&br&- &a href=&///?target=https%3A///humiaozuzu/dot-vimrc& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&humiaozuzu/dot-vimrc · GitHub&i class=&icon-external&&&/i&&/a&&br&下面那个配图:&br&&img src=&/abcdd4d0bc0f17a2d98a419_b.jpg& data-rawwidth=&1100& data-rawheight=&634& class=&origin_image zh-lightbox-thumb& width=&1100& data-original=&/abcdd4d0bc0f17a2d98a419_r.jpg&&&br&&img src=&/df905f08b953ffe788431_b.jpg& data-rawwidth=&1100& data-rawheight=&634& class=&origin_image zh-lightbox-thumb& width=&1100& data-original=&/df905f08b953ffe788431_r.jpg&&
推荐两个配置 -
再不用折腾了。。。看 star 数就知道很牛逼了 -
下面那个配图:
推荐两个配置&br&-
&a href=&///?target=https%3A///spf13/spf13-vim& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&spf13/spf13-vim · GitHub&i class=&icon-external&&&/i&&/a& 再不用折腾了。。。看 star 数就知道很牛逼了&br&- &a href=&///?target=https%3A///humiaozuzu/dot-vimrc& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&humiaozuzu/dot-vimrc · GitHub&i class=&icon-external&&&/i&&/a&&br&下面那个配图:&br&&img src=&/abcdd4d0bc0f17a2d98a419_b.jpg& data-rawwidth=&1100& data-rawheight=&634& class=&origin_image zh-lightbox-thumb& width=&1100& data-original=&/abcdd4d0bc0f17a2d98a419_r.jpg&&&br&&img src=&/df905f08b953ffe788431_b.jpg& data-rawwidth=&1100& data-rawheight=&634& class=&origin_image zh-lightbox-thumb& width=&1100& data-original=&/df905f08b953ffe788431_r.jpg&&
推荐两个配置 -
再不用折腾了。。。看 star 数就知道很牛逼了 -
下面那个配图:
2013年回老家看望父母,因工作需要,仓促买了一张坐票回深圳。&br&&br&坐我对面的是一对老年夫妇,年龄估摸在70岁上下。从对方穿着来看,应该是来自农村经济条件比较差的地方。&br&&br&晚上六七点,乘务员推着餐车已经来来回回几次了,有些人买盒饭,有些人买杯面,有些人去了餐厅,还有些人食用自带食物。这对老年夫妇掏出四个煮鸡蛋,旁边放着盐水瓶(后来才知道是他们自带的井水)。老爷子一个接一个剥给大娘吃……。&br&&br&我好奇问道:“大爷大娘你们晚上总共就吃四个鸡蛋够吗?” 老爷子与大娘腼腆地微笑点头,带着浓郁又淳朴的乡土气息。他们没有说话,可能是怕我听不懂吧。&br&&br&到了凌晨三点多,我迷迷糊糊醒来,脖子酸痛,双腿特别难受(坐过长途火车的人能体会到)。只见坐在我对面的老爷子一只手托起大娘半个身子,很坚挺地坐着,两眼充满血丝而显得异常红肿,一看就是知道是没睡觉导致的。大娘斜靠在老爷子侧面睡着……&br&&br&时不时见到老爷子拿着盐水瓶喝一口,火车厢内有空调,又不热,怎么会喝那么对多水呢?琢磨了很久才想起一个细节,老爷子晚上没吃任何东西,是拿水充饥!&br&&br&我赶紧从挂在窗户旁边的袋子里拿出肯德基买的外卖,里面还有一个鸡腿和两块鸡块。递给老爷子,示意他吃。老爷子刚开始不好意思接受,在我坚持下,才肯收下。老爷子并没有吃,而是放在盐水瓶旁边。&br&&br&整个晚上我没有睡好,老是醒来,因为趴着睡难受,靠着后背睡也是难受。每次醒来,老爷子的表情与姿势一成不变,像一座雕塑,而大娘整整睡了一晚上。好羡慕大娘有这么好的一个男人照顾,真心羡慕。&br&&br&到了早上七点多,老爷子把鸡腿和鸡块给了大娘吃,等大娘去了洗手间,跟老爷子唠嗑才得知:他们几年没见到女儿了,特别想念女儿,而大娘精神有点失常,眼看身体越来越差了,怕以后没机会出远门,就特意带大娘从老家去深圳看女儿。&br&&br&听到这里我才想明白,为什么大娘只顾自己吃自己睡了。&br&&br&&br&&br&多年过去了,那人那事,历历在目。&br&&br&老夫妻的感情碎如手心的花瓣,瓣瓣无声,静静地流淌在人间。&br&&br&“一份感情就是一辈子” 是我孜孜不倦的追求。&br&&br&&br&&br&&br&感谢阅读&br&&br&&br&&br&&a href=&/question//answer/& class=&internal&&有哪些让你看了想哭的句子? - Sofia 的回答 - 知乎&/a&&br&&br&&a href=&/question//answer/& class=&internal&&你觉得你最激动的一刻,是什么时候? - Sofia 的回答 - 知乎&/a&
2013年回老家看望父母,因工作需要,仓促买了一张坐票回深圳。 坐我对面的是一对老年夫妇,年龄估摸在70岁上下。从对方穿着来看,应该是来自农村经济条件比较差的地方。 晚上六七点,乘务员推着餐车已经来来回回几次了,有些人买盒饭,有些人买杯面,有些人…
&img src=&/v2-1a17aae6aea40fcd02321bbe879c429f_b.png& data-rawwidth=&0& data-rawheight=&0& class=&content_image& width=&0&&深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动。请关注我们的知乎专栏!&br&&br&&p&英文中有句谚语叫:&You never get a second chance to make a first impression.&(你永远没有第二个机会去改变你的第一印象。)一个人的第一印象可以用来快速判断其性格特征(Personal traits)及其复杂的社交特质,如友善、和蔼、强硬和控制欲等等。因此,在人工智能大行其道的当下,基于第一印象/表象的性格自动分析也成为计算机视觉和多媒体领域中一类非常重要的研究问题。&/p&&p&前不久,欧洲计算机视觉大会(ECCV 2016)ChaLearn Looking at People Workshop就举办了一场全球范围的(视频)表象性格分析竞赛(Apparent personality analysis)。历时两个多月,我们的参赛队(NJU-LAMDA)在86个参赛者,其中包括有印度“科学皇冠上的瑰宝”之称的Indian Institutes of Technology (IIT)和荷兰名校Radboud University等劲旅中脱引而出,斩获第一。在此与大家分享我们的竞赛模型和比赛细节。&/p&&p&&b&问题重述&/b&&/p&&p&本次ECCV竞赛提供了平均长度为15秒的10000个短视频,其中6000个为训练集,2000个为验证集,剩余2000个作为测试。比赛要求通过对短视频中人物表象(表情、动作及神态等)的分析来精确预测人的五大性格特质,即Big Five Traits,其中包括:经验开放性(Openness to experience)、尽责性(Conscientiousness)、外向性(Extraversion)、亲和性(Agreeableness)和情绪不稳定性(Neuroticism)。视频示例如下所示:&br&&/p&&p&&img src=&/v2-1a17aae6aea40fcd02321bbe879c429f_b.png& data-rawwidth=&771& data-rawheight=&274& class=&origin_image zh-lightbox-thumb& width=&771& data-original=&/v2-1a17aae6aea40fcd02321bbe879c429f_r.png&&竞赛数据中五大性格特质的真实标记(Ground truth)通过Amazon Mechanical Turk人工标注获得,每个性格特质对应一个0~1之间的实值。&br&&/p&&img src=&/v2-d3b3e4836ea7fea91b1f0cf8c6833c8a_b.png& data-rawwidth=&683& data-rawheight=&271& class=&origin_image zh-lightbox-thumb& width=&683& data-original=&/v2-d3b3e4836ea7fea91b1f0cf8c6833c8a_r.png&&&p&&b&我们的方法&/b&&/p&&p&由于竞赛数据为短视频,我们很自然的把它作为双模态(Bimodal)的数据对象来进行处理,其中一个模态为音频信息(Audio cue),另一个则为视觉信息(Visual cue)。同时,需预测的五大性格特质均为连续值,因此我们将整个问题形式化为一个回归问题(Regression)。我们将提出的这个模型框架称作双模态深度回归(Deep Bimodal Regression,DBR)模型。下面分别从两个模态的处理和最后的模态融合来解析DBR。&/p&&img src=&/v2-17b800bf60b1cc182b430ff4c45dbbbd_b.png& data-rawwidth=&745& data-rawheight=&285& class=&origin_image zh-lightbox-thumb& width=&745& data-original=&/v2-17b800bf60b1cc182b430ff4c45dbbbd_r.png&&&p&&b&视觉模态&/b&&/p&&p&在视觉模态中,考虑到对于短视频类数据,时序信息的重要程度并不显著,我们采取了更简单有效的视频处理方式,即直接将视频随机抽取若干帧(Frame),并将其作为视觉模态的原始输入。当然,在DBR中,视觉模态的表示学习部分不能免俗的使用了卷积神经网络(Convolutional Neural Networks,CNN)。同时,我们在现有网络基础上进行了改进,提出了描述子融合网络(Descriptor Aggregation Networks,DAN),从而取得了更好的预测性能。&/p&&p&以VGG-16为例,传统CNN经过若干层卷积(Convolutional)、池化(Pooling)的堆叠,其后一般是两层全链接层(Fully connected layers)作为网络的分类部分,最终输出结果。&br&&/p&&p&&img src=&/v2-ea8f96a18f5_b.png& data-rawwidth=&715& data-rawheight=&232& class=&origin_image zh-lightbox-thumb& width=&715& data-original=&/v2-ea8f96a18f5_r.png&&受到我们最近工作[2]的启发,在DBR视觉模态的CNN中,我们扔掉了参数冗余的全链接层,取而代之的是将最后一层卷积层学到的深度描述子(Deep descriptor)做融合(Aggregation),之后对其进行L2规范化(L2-normalization),最后基于这样的图像表示做回归(fc+sigmoid作为回归层),构建端到端(End-to-end)的深度学习回归模型。另外,不同融合方式也可视作一种特征层面的集成(Ensemble)。如下图,在DAN中,我们对最后一层卷积得到的深度描述子分别进行最大(Max)和平均(Average)的全局池化(Global pooling)操作,之后对得到的融合结果分别做L2规范化,接下来将两支得到的特征级联(concatenation)后作为最终的图像表示(Image representation)。&br&&/p&&img src=&/v2-127bca041e07a0cec794_b.png& data-rawwidth=&739& data-rawheight=&222& class=&origin_image zh-lightbox-thumb& width=&739& data-original=&/v2-127bca041e07a0cec794_r.png&&&p&传统CNN中,80%的参数存在于全链接层,而DAN摒弃了全链接,使得DAN相比传统CNN模型拥有更少的参数,同时大幅减少的参数可加速模型的训练速度。另外,全局池化带来了另一个优势即最终的图像表示(512维)相比传统全链接层(4096维)有了更低的维度,有利于模型的可扩展性以处理海量(Large-scale)数据。&/p&&p&此外,为了集成多层信息(Multiple layer ensemble),在DAN基础上我们提出了可端到端训练的DAN+。具体而言,是对ReLU5_2层的深度描述子做上述同样操作,得到对应于ReLU5_2的图像表示,将其与Pool5层的DAN得到的图像表示进行二次级联,最终的向量维度为2048维。&br&&/p&&img src=&/v2-0e6d8e4a3a0fbff046e5_b.png& data-rawwidth=&666& data-rawheight=&413& class=&origin_image zh-lightbox-thumb& width=&666& data-original=&/v2-0e6d8e4a3a0fbff046e5_r.png&&&p&除DAN和DAN+外,在视觉模态中,我们还利用了著名的残差网络(Residual Networks)作为模型集成的另一部分。&/p&&p&&b&音频模态&/b&&/p&&p&语音处理中的一种常用的特征为MFCC特征,在竞赛模型中,我们首先从视频中提取原始语音作为输入数据,之后对其抽取MFCC特征。在此需要指出的是,抽取MFCC过程的一个副产品是一种名为logfbank特征,如下图所示:&/p&&p&&img src=&/v2-3a27d5d81a8df278fa9f002cd76a63cb_b.png& data-rawwidth=&675& data-rawheight=&374& class=&origin_image zh-lightbox-thumb& width=&675& data-original=&/v2-3a27d5d81a8df278fa9f002cd76a63cb_r.png&&在抽取logfbank和MFCC特征后,我们同样采取mini-batch形式的训练方式训练线性回归器(Linear regression)。在竞赛中,我们发现logfbank相比MFCC有更优秀的预测效果,如下图所示。其纵轴为回归错误率(越低越好),其横轴为训练轮数,可以发现logfbank在最终的回归错误率上相比MFCC有近0.5%的提升。&br&&/p&&img src=&/v2-10ad10e7a85e32eb437fee_b.png& data-rawwidth=&631& data-rawheight=&297& class=&origin_image zh-lightbox-thumb& width=&631& data-original=&/v2-10ad10e7a85e32eb437fee_r.png&&&p&于是我们选取logfbank特征作为音频模态的特征表示以预测音频模态的回归结果。由于竞赛时间和精力有限,我们在比赛中未使用语音处理领域的深度学习模型。不过,这也是后续可以提高模型性能的一个重要途径。&/p&&p&&b&模态融合(Modality ensemble)&/b&&br&&/p&&p&待两个模态的模型训练完毕,可以得到不同模态不同模型的性格特质预测结果,比赛中我们将其无权重的平均作为该视频最终的性格特质预测结果,如图:&br&&/p&&img src=&/v2-11b42dc2fd1b596cbeb727_b.png& data-rawwidth=&721& data-rawheight=&396& class=&origin_image zh-lightbox-thumb& width=&721& data-original=&/v2-11b42dc2fd1b596cbeb727_r.png&&&p&&b&竞赛结果&/b&&/p&&p&比赛中,我们对一个视频抽取100帧/张图像作为其视觉模态的输入,对应的原始音频作为抽取logfbank特征的语料。训练阶段,针对视觉模态,其100张图像共享对应的性格特质真实标记;预测阶段,其100张图像的平均预测值将作为该视频视觉模态的预测结果。&/p&&p&经下表对比,可以清楚看到,DAN相比VGG-Face,由于没有了冗余的全链接层,其参数只有VGG-Face的约十分之一,而回归预测准确率却优于传统VGG模型,同时特征维度大大减少。此外,相比ResNet,我们提出的模型DAN和DAN+也有不俗表现。此外,在模型预测速度上,DAN和DAN+也快于VGG和ResNet。&/p&&p&&img src=&/v2-b3c4e7e358a2cc_b.png& data-rawwidth=&729& data-rawheight=&425& class=&origin_image zh-lightbox-thumb& width=&729& data-original=&/v2-b3c4e7e358a2cc_r.png&&模态集成后,我们在五个性格特质预测上取得了四个结果的第一,同时我们也取得了总成绩的冠军。&br&&/p&&img src=&/v2-1dbc55bfb643c_b.png& data-rawwidth=&748& data-rawheight=&199& class=&origin_image zh-lightbox-thumb& width=&748& data-original=&/v2-1dbc55bfb643c_r.png&&&p&&b&模型分析&/b&&/p&&p&最后,我们将模型最后一层卷积/池化的特征做了可视化。可以发现ResNet仅仅将“注意力”聚焦在了视频中的人物上,而我们的DAN和DAN+不仅可以“注意”到人,同时可以将环境和动作信息结合起来进行表象性格预测。另外值得一提的是,其余参赛队均做了人脸检测等预处理操作,从而将人物从视频中“抠”出,但是这样的操作反而降低了整个性格特质预测的性能。俗话说“气由心生”,一个人所处的环境(尤其是卧室、办公室等私人场所)往往可以从侧面反映一个人的性格特性。&br&&/p&&img src=&/v2-df599f59d6cea93a1fac22e2f525015e_b.png& data-rawwidth=&670& data-rawheight=&360& class=&origin_image zh-lightbox-thumb& width=&670& data-original=&/v2-df599f59d6cea93a1fac22e2f525015e_r.png&&&p&&b&参考文献&/b&&/p&&p&&b&[1]&/b& Victor Ponce-Lopez, Baiyu Chen, Marc Oliu, Ciprian Cornearu, Albert Clapes, Isabelle Guyon, Xavier Baro, Hugo Jair Escalante and Sergio Escalera. ChaLearn LAP 2016: First Round Challenge on First Impressions - Dataset and Results. European Conference on Computer Vision, 2016.&/p&&p&&b&[2] &/b&Xiu-Shen Wei, Chen-Wei Xie and Jianxin Wu. Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition. arXiv:, 2016.&/p&&p&&b&[3] &/b&Chen-Lin Zhang, Hao Zhang, Xiu-Shen Wei and Jianxin Wu. Deep Bimodal Regression for Apparent Personality Analysis. European Conference on Computer Vision, 2016.&br&&/p&&br&&p&&b&该文章属于“深度学习大讲堂”原创,如需要转载,请联系&a href=&/people/guo-dan-qing& class=&internal&&@果果是枚开心果.&/a&&/b&&br&&/p&&p&&b&作者简介:&/b&&br&&/p&&p&&img src=&/v2-1a88dceaa7beef27c2ef_b.jpg& data-rawwidth=&119& data-rawheight=&118& class=&content_image& width=&119&&&b&魏秀参,&/b&为本次竞赛NJU-LAMDA参赛队Team Director。南京大学计算机系机器学习与数据挖掘所(LAMDA)博士生,研究方向为计算机视觉和机器学习。曾在国际顶级期刊和会议发表多篇学术论文,并多次获得国际计算机视觉相关竞赛冠亚军,另撰写的「Must Know Tips/Tricks in Deep Neural Networks」受邀发布于国际知名数据挖掘论坛 KDnuggets 等。 微博ID:Wilson_NJUer&br&&/p&&br&&p&&b&原文链接:&a href=&/?target=http%3A//mp./s%3F__biz%3DMzI1NTE4NTUwOQ%3D%3D%26mid%3D%26idx%3D1%26sn%3D180f7ad377ff7facedb33%26chksm%3Df235a59fccea31c1be6f09bcffee32d325cd72b800c9%26scene%3D0%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&[冠军之道]ECCV16视频性格分析竞赛冠军团队分享&i class=&icon-external&&&/i&&/a&&br&&/b&&/p&&p&&b&欢迎大家关注我们的微信公众号,搜索微信名称:深度学习大讲堂&/b&&br&&/p&&img src=&/v2-a29f11dacaf2c3a3f8b93_b.jpg& data-rawwidth=&346& data-rawheight=&67& class=&content_image& width=&346&&
深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动。请关注我们的知乎专栏! 英文中有句谚语叫:"You never get a second chance to make a first impression."(你永远没有第二个机会去改变你的第一印象。)一个人的第一印象可以用…
&img src=&/v2-1a17aae6aea40fcd02321bbe879c429f_b.png& data-rawwidth=&0& data-rawheight=&0& class=&content_image& width=&0&&深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动。请关注我们的知乎专栏!&br&&br&&p&英文中有句谚语叫:&You never get a second chance to make a first impression.&(你永远没有第二个机会去改变你的第一印象。)一个人的第一印象可以用来快速判断其性格特征(Personal traits)及其复杂的社交特质,如友善、和蔼、强硬和控制欲等等。因此,在人工智能大行其道的当下,基于第一印象/表象的性格自动分析也成为计算机视觉和多媒体领域中一类非常重要的研究问题。&/p&&p&前不久,欧洲计算机视觉大会(ECCV 2016)ChaLearn Looking at People Workshop就举办了一场全球范围的(视频)表象性格分析竞赛(Apparent personality analysis)。历时两个多月,我们的参赛队(NJU-LAMDA)在86个参赛者,其中包括有印度“科学皇冠上的瑰宝”之称的Indian Institutes of Technology (IIT)和荷兰名校Radboud University等劲旅中脱引而出,斩获第一。在此与大家分享我们的竞赛模型和比赛细节。&/p&&p&&b&问题重述&/b&&/p&&p&本次ECCV竞赛提供了平均长度为15秒的10000个短视频,其中6000个为训练集,2000个为验证集,剩余2000个作为测试。比赛要求通过对短视频中人物表象(表情、动作及神态等)的分析来精确预测人的五大性格特质,即Big Five Traits,其中包括:经验开放性(Openness to experience)、尽责性(Conscientiousness)、外向性(Extraversion)、亲和性(Agreeableness)和情绪不稳定性(Neuroticism)。视频示例如下所示:&br&&/p&&p&&img src=&/v2-1a17aae6aea40fcd02321bbe879c429f_b.png& data-rawwidth=&771& data-rawheight=&274& class=&origin_image zh-lightbox-thumb& width=&771& data-original=&/v2-1a17aae6aea40fcd02321bbe879c429f_r.png&&竞赛数据中五大性格特质的真实标记(Ground truth)通过Amazon Mechanical Turk人工标注获得,每个性格特质对应一个0~1之间的实值。&br&&/p&&img src=&/v2-d3b3e4836ea7fea91b1f0cf8c6833c8a_b.png& data-rawwidth=&683& data-rawheight=&271& class=&origin_image zh-lightbox-thumb& width=&683& data-original=&/v2-d3b3e4836ea7fea91b1f0cf8c6833c8a_r.png&&&p&&b&我们的方法&/b&&/p&&p&由于竞赛数据为短视频,我们很自然的把它作为双模态(Bimodal)的数据对象来进行处理,其中一个模态为音频信息(Audio cue),另一个则为视觉信息(Visual cue)。同时,需预测的五大性格特质均为连续值,因此我们将整个问题形式化为一个回归问题(Regression)。我们将提出的这个模型框架称作双模态深度回归(Deep Bimodal Regression,DBR)模型。下面分别从两个模态的处理和最后的模态融合来解析DBR。&/p&&img src=&/v2-17b800bf60b1cc182b430ff4c45dbbbd_b.png& data-rawwidth=&745& data-rawheight=&285& class=&origin_image zh-lightbox-thumb& width=&745& data-original=&/v2-17b800bf60b1cc182b430ff4c45dbbbd_r.png&&&p&&b&视觉模态&/b&&/p&&p&在视觉模态中,考虑到对于短视频类数据,时序信息的重要程度并不显著,我们采取了更简单有效的视频处理方式,即直接将视频随机抽取若干帧(Frame),并将其作为视觉模态的原始输入。当然,在DBR中,视觉模态的表示学习部分不能免俗的使用了卷积神经网络(Convolutional Neural Networks,CNN)。同时,我们在现有网络基础上进行了改进,提出了描述子融合网络(Descriptor Aggregation Networks,DAN),从而取得了更好的预测性能。&/p&&p&以VGG-16为例,传统CNN经过若干层卷积(Convolutional)、池化(Pooling)的堆叠,其后一般是两层全链接层(Fully connected layers)作为网络的分类部分,最终输出结果。&br&&/p&&p&&img src=&/v2-ea8f96a18f5_b.png& data-rawwidth=&715& data-rawheight=&232& class=&origin_image zh-lightbox-thumb& width=&715& data-original=&/v2-ea8f96a18f5_r.png&&受到我们最近工作[2]的启发,在DBR视觉模态的CNN中,我们扔掉了参数冗余的全链接层,取而代之的是将最后一层卷积层学到的深度描述子(Deep descriptor)做融合(Aggregation),之后对其进行L2规范化(L2-normalization),最后基于这样的图像表示做回归(fc+sigmoid作为回归层),构建端到端(End-to-end)的深度学习回归模型。另外,不同融合方式也可视作一种特征层面的集成(Ensemble)。如下图,在DAN中,我们对最后一层卷积得到的深度描述子分别进行最大(Max)和平均(Average)的全局池化(Global pooling)操作,之后对得到的融合结果分别做L2规范化,接下来将两支得到的特征级联(concatenation)后作为最终的图像表示(Image representation)。&br&&/p&&img src=&/v2-127bca041e07a0cec794_b.png& data-rawwidth=&739& data-rawheight=&222& class=&origin_image zh-lightbox-thumb& width=&739& data-original=&/v2-127bca041e07a0cec794_r.png&&&p&传统CNN中,80%的参数存在于全链接层,而DAN摒弃了全链接,使得DAN相比传统CNN模型拥有更少的参数,同时大幅减少的参数可加速模型的训练速度。另外,全局池化带来了另一个优势即最终的图像表示(512维)相比传统全链接层(4096维)有了更低的维度,有利于模型的可扩展性以处理海量(Large-scale)数据。&/p&&p&此外,为了集成多层信息(Multiple layer ensemble),在DAN基础上我们提出了可端到端训练的DAN+。具体而言,是对ReLU5_2层的深度描述子做上述同样操作,得到对应于ReLU5_2的图像表示,将其与Pool5层的DAN得到的图像表示进行二次级联,最终的向量维度为2048维。&br&&/p&&img src=&/v2-0e6d8e4a3a0fbff046e5_b.png& data-rawwidth=&666& data-rawheight=&413& class=&origin_image zh-lightbox-thumb& width=&666& data-original=&/v2-0e6d8e4a3a0fbff046e5_r.png&&&p&除DAN和DAN+外,在视觉模态中,我们还利用了著名的残差网络(Residual Networks)作为模型集成的另一部分。&/p&&p&&b&音频模态&/b&&/p&&p&语音处理中的一种常用的特征为MFCC特征,在竞赛模型中,我们首先从视频中提取原始语音作为输入数据,之后对其抽取MFCC特征。在此需要指出的是,抽取MFCC过程的一个副产品是一种名为logfbank特征,如下图所示:&/p&&p&&img src=&/v2-3a27d5d81a8df278fa9f002cd76a63cb_b.png& data-rawwidth=&675& data-rawheight=&374& class=&origin_image zh-lightbox-thumb& width=&675& data-original=&/v2-3a27d5d81a8df278fa9f002cd76a63cb_r.png&&在抽取logfbank和MFCC特征后,我们同样采取mini-batch形式的训练方式训练线性回归器(Linear regression)。在竞赛中,我们发现logfbank相比MFCC有更优秀的预测效果,如下图所示。其纵轴为回归错误率(越低越好),其横轴为训练轮数,可以发现logfbank在最终的回归错误率上相比MFCC有近0.5%的提升。&br&&/p&&img src=&/v2-10ad10e7a85e32eb437fee_b.png& data-rawwidth=&631& data-rawheight=&297& class=&origin_image zh-lightbox-thumb& width=&631& data-original=&/v2-10ad10e7a85e32eb437fee_r.png&&&p&于是我们选取logfbank特征作为音频模态的特征表示以预测音频模态的回归结果。由于竞赛时间和精力有限,我们在比赛中未使用语音处理领域的深度学习模型。不过,这也是后续可以提高模型性能的一个重要途径。&/p&&p&&b&模态融合(Modality ensemble)&/b&&br&&/p&&p&待两个模态的模型训练完毕,可以得到不同模态不同模型的性格特质预测结果,比赛中我们将其无权重的平均作为该视频最终的性格特质预测结果,如图:&br&&/p&&img src=&/v2-11b42dc2fd1b596cbeb727_b.png& data-rawwidth=&721& data-rawheight=&396& class=&origin_image zh-lightbox-thumb& width=&721& data-original=&/v2-11b42dc2fd1b596cbeb727_r.png&&&p&&b&竞赛结果&/b&&/p&&p&比赛中,我们对一个视频抽取100帧/张图像作为其视觉模态的输入,对应的原始音频作为抽取logfbank特征的语料。训练阶段,针对视觉模态,其100张图像共享对应的性格特质真实标记;预测阶段,其100张图像的平均预测值将作为该视频视觉模态的预测结果。&/p&&p&经下表对比,可以清楚看到,DAN相比VGG-Face,由于没有了冗余的全链接层,其参数只有VGG-Face的约十分之一,而回归预测准确率却优于传统VGG模型,同时特征维度大大减少。此外,相比ResNet,我们提出的模型DAN和DAN+也有不俗表现。此外,在模型预测速度上,DAN和DAN+也快于VGG和ResNet。&/p&&p&&img src=&/v2-b3c4e7e358a2cc_b.png& data-rawwidth=&729& data-rawheight=&425& class=&origin_image zh-lightbox-thumb& width=&729& data-original=&/v2-b3c4e7e358a2cc_r.png&&模态集成后,我们在五个性格特质预测上取得了四个结果的第一,同时我们也取得了总成绩的冠军。&br&&/p&&img src=&/v2-1dbc55bfb643c_b.png& data-rawwidth=&748& data-rawheight=&199& class=&origin_image zh-lightbox-thumb& width=&748& data-original=&/v2-1dbc55bfb643c_r.png&&&p&&b&模型分析&/b&&/p&&p&最后,我们将模型最后一层卷积/池化的特征做了可视化。可以发现ResNet仅仅将“注意力”聚焦在了视频中的人物上,而我们的DAN和DAN+不仅可以“注意”到人,同时可以将环境和动作信息结合起来进行表象性格预测。另外值得一提的是,其余参赛队均做了人脸检测等预处理操作,从而将人物从视频中“抠”出,但是这样的操作反而降低了整个性格特质预测的性能。俗话说“气由心生”,一个人所处的环境(尤其是卧室、办公室等私人场所)往往可以从侧面反映一个人的性格特性。&br&&/p&&img src=&/v2-df599f59d6cea93a1fac22e2f525015e_b.png& data-rawwidth=&670& data-rawheight=&360& class=&origin_image zh-lightbox-thumb& width=&670& data-original=&/v2-df599f59d6cea93a1fac22e2f525015e_r.png&&&p&&b&参考文献&/b&&/p&&p&&b&[1]&/b& Victor Ponce-Lopez, Baiyu Chen, Marc Oliu, Ciprian Cornearu, Albert Clapes, Isabelle Guyon, Xavier Baro, Hugo Jair Escalante and Sergio Escalera. ChaLearn LAP 2016: First Round Challenge on First Impressions - Dataset and Results. European Conference on Computer Vision, 2016.&/p&&p&&b&[2] &/b&Xiu-Shen Wei, Chen-Wei Xie and Jianxin Wu. Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition. arXiv:, 2016.&/p&&p&&b&[3] &/b&Chen-Lin Zhang, Hao Zhang, Xiu-Shen Wei and Jianxin Wu. Deep Bimodal Regression for Apparent Personality Analysis. European Conference on Computer Vision, 2016.&br&&/p&&br&&p&&b&该文章属于“深度学习大讲堂”原创,如需要转载,请联系&a href=&/people/guo-dan-qing& class=&internal&&@果果是枚开心果.&/a&&/b&&br&&/p&&p&&b&作者简介:&/b&&br&&/p&&p&&img src=&/v2-1a88dceaa7beef27c2ef_b.jpg& data-rawwidth=&119& data-rawheight=&118& class=&content_image& width=&119&&&b&魏秀参,&/b&为本次竞赛NJU-LAMDA参赛队Team Director。南京大学计算机系机器学习与数据挖掘所(LAMDA)博士生,研究方向为计算机视觉和机器学习。曾在国际顶级期刊和会议发表多篇学术论文,并多次获得国际计算机视觉相关竞赛冠亚军,另撰写的「Must Know Tips/Tricks in Deep Neural Networks」受邀发布于国际知名数据挖掘论坛 KDnuggets 等。 微博ID:Wilson_NJUer&br&&/p&&br&&p&&b&原文链接:&a href=&/?target=http%3A//mp./s%3F__biz%3DMzI1NTE4NTUwOQ%3D%3D%26mid%3D%26idx%3D1%26sn%3D180f7ad377ff7facedb33%26chksm%3Df235a59fccea31c1be6f09bcffee32d325cd72b800c9%26scene%3D0%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&[冠军之道]ECCV16视频性格分析竞赛冠军团队分享&i class=&icon-external&&&/i&&/a&&br&&/b&&/p&&p&&b&欢迎大家关注我们的微信公众号,搜索微信名称:深度学习大讲堂&/b&&br&&/p&&img src=&/v2-a29f11dacaf2c3a3f8b93_b.jpg& data-rawwidth=&346& data-rawheight=&67& class=&content_image& width=&346&&
深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动。请关注我们的知乎专栏! 英文中有句谚语叫:"You never get a second chance to make a first impression."(你永远没有第二个机会去改变你的第一印象。)一个人的第一印象可以用…
Dota2天梯单排世界排名:“ 我打到世界第一,就是为了让全世界都知道,日日本在南京犯下了罄竹难书的罪行!”&br&&img src=&/v2-35b407aa436fe9c56a82_b.jpg& data-rawwidth=&612& data-rawheight=&921& class=&origin_image zh-lightbox-thumb& width=&612& data-original=&/v2-35b407aa436fe9c56a82_r.jpg&&&br&&br&&br&
知乎是一个见多识广、大神群集的所在,感动这东西是自己的,见仁见智的事情。所以不要相互嘲讽指责。&br&&br&勿忘国耻&br&谢谢。&br&&br&
小时候父母家长告诫我&br&
要学习雷锋好榜样&br&
长大了我自己告诫自己&br&
要学习雷锋好榜样&br&此致 &br&
Dota2天梯单排世界排名:“ 我打到世界第一,就是为了让全世界都知道,日日本在南京犯下了罄竹难书的罪行!” 知乎是一个见多识广、大神群集的所在,感动这东西是自己的,见仁见智的事情。所以不要相互嘲讽指责。 勿忘国耻 谢谢。 小时候父母家…
可以写诗,下面几首诗,大家来猜猜,哪些是机器写的,哪些是人写的? &br&&br&千秋明月照幽窗,一夜西风满院凉。山寺钟鸣惊宿鸟,水边芳草自生香。&br&一枕相思夜未休,春山秋雨惹离愁。凭栏望断江南月,花落无声水自流。&br&春到江南草更青,胭脂粉黛玉为屏。无端一夜西窗雨,吹落梨花满地庭。&br&百万兵戈战阵前,楚歌声里起狼烟。旌旗蔽日烽连塞,鼓角惊城血染关。&br&一夜秋风扫叶开,云边雁阵向南来。清霜渐染梧桐树,满地黄花坡上栽。&br&梨花落尽柳絮飞,雨打芭蕉入翠微。夜静更深人不寐,江头月下泪沾衣。&br&雨打芭蕉滴泪痕,残灯孤影对黄昏。夜来无寐听窗外,数声鸡鸣过晓村。&br&孤舟一叶泊江头,雁去无声送客愁。莫道春来芳草绿,人间万里尽风流。&br&客梦初醒惊夜雨,西窗帘外月如钩。梧桐落叶知秋意,一任相思到白头。&br&秋深更觉少人行,雁去无声月满庭。兄弟别离肠断处,江南烟雨总关情。&br&明月当窗照夜空,桂花香透小楼东。金风玉露三更后,雪落梅梢一点红。&br&琴静云水清,
夕阳照天明。
一曲相思调,
肠断心不宁。&br&楼头一夜风,
烟雨锁朦胧。
江上千帆过,
枝头黄叶红。&br&&br&&br&&br&&br&&br&&br&&br&7.27更新&br&是的,所有诗都是机器写的。&br&&br&8.30更新&br&现在已经有Demo啦,想体验的朋友,请在手机百度上用语音搜索说:&b&为你写诗&/b&&br&即可开始体验。然后可以说一句话,例如明月当空照,就可以根据你这句话写诗。&br&后面按顺序手动输入1-4个关键词,用空格隔开,也可以生成诗。&br&&br&11.3更新&br&写诗模型具体原理的介绍,参见:&a href=&///?target=http%3A//freecoder.me/archives/213.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&freecoder.me/archives/2&/span&&span class=&invisible&&13.html&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&
可以写诗,下面几首诗,大家来猜猜,哪些是机器写的,哪些是人写的? 千秋明月照幽窗,一夜西风满院凉。山寺钟鸣惊宿鸟,水边芳草自生香。 一枕相思夜未休,春山秋雨惹离愁。凭栏望断江南月,花落无声水自流。 春到江南草更青,胭脂粉黛玉为屏。无端一夜西窗…
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 word转换器 的文章

 

随机推荐