如何评价with app这个语音软件？

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>蜡笔小新 >>如何评价with app这个语音软件？

如何评价with app这个语音软件？

来源：蜘蛛抓取(WebSpider) 时间：2022-07-12 13:57 标签：拍拍语音这个软件怎么样

本文主要从5大方面具体介绍了现在行业内对语音交互系统的常见评价指标，分别是语音识别、自然语言处理、语音合成、对话系统和整体用户数据指标。enjoy~

最近，在饭团“AI产品经理大本营”里，有团员提问：如何制定针对自然语言语音交互系统的评价体系？有没有通用的标准？例如在车载环境中，站在用户角度，从客观，主观角度的评价指标？

上周，我在专属微信群内抛出了这个问题，当晚，胡含、我偏笑、艳龙等朋友就分享了不少干货心得；最近几天，在飞艳同学的协助整理下，我又补充了一些信息，最终形成这篇文章，以飨大家。

语音识别（Automatic Speech Recognition），一般简称ASR，是将声音转化为文字的过程，相当于人类的耳朵。

看纯引擎的识别率，以及不同信噪比状态下的识别率（信噪比模拟不同车速、车窗、空调状态等），还有在线/离线识别的区别。

实际工作中，一般识别率的直接指标是“WER（词错误率，Word Error Rate）”

定义：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比，即为WER。

WER可以分男女、快慢、口音、数字/英文/中文等情况，分别来看。
因为有插入词，所以理论上WER有可能大于100%，但实际中、特别是大样本量的时候，是不可能的，否则就太差了，不可能被商用。
站在纯产品体验角度，很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”，即“识别（正确）率等于96%”这种，实际工作中，这个应该指向“SER（句错误率，Sentence Error Rate）”，即“句子识别错误的个数/总的句子个数”。不过据说在实际工作中，一般句错误率是字错误率的2~3倍，所以可能就不怎么看了。

2、语音唤醒相关的指标

先需要介绍下语音唤醒（Voice Trigger，VT）的相关信息。

（1）语音唤醒的需求背景

近场识别时，比如使用语音输入法时，用户可以按住手机上siri的语音按钮，直接说话（结束之后松开）；近场情况下信噪比（Signal to Noise Ratio, SNR）比较高，信号清晰，简单算法也能做到有效可靠。

但是在远场识别时，比如在智能音箱场景，用户不能用手接触设备，需要进行语音唤醒，相当于叫这个AI（机器人）的名字，引起ta的注意，比如苹果的“Hey Siri”，Google的“OK Google”，亚马逊Echo的“Alexa”等。

简单来说是“喊名字，引起听者（AI）的注意”。如果语音唤醒判断结果是正确的唤醒（激活）词，那后续的语音就应该被识别；否则，不进行识别。

（3）语音唤醒的相关指标

a. 唤醒率。叫AI的时候，ta成功被唤醒的比率。
b. 误唤醒率。没叫AI的时候，ta自己跳出来讲话的比率。如果误唤醒比较多，特别比如半夜时，智能音箱突然开始唱歌或讲故事，会特别吓人的……
c. 唤醒词的音节长度。一般技术上要求，最少3个音节，比如“OK Google”和“Alexa”有四个音节，“Hey Siri”有三个音节；国内的智能音箱，比如小雅，唤醒词是“小雅小雅”，而不能用“小雅”——如果音节太短，一般误唤醒率会比较高。
d. 唤醒响应时间。之前看过傅盛的文章，说世界上所有的音箱，除了Echo和他们做的小雅智能音箱能达到1.5秒，其他的都在3秒以上。
e. 功耗（要低）。看过报道，说iPhone 4s出现Siri，但直到iPhone 6s之后才允许不接电源的情况下直接喊“Hey Siri”进行语音唤醒；这是因为有6s上有一颗专门进行语音激活的低功耗芯片，当然算法和硬件要进行配合，算法也要进行优化。

以上a、b、d相对更重要。

二、自然语言处理NLP

自然语言处理（Natural Language Processing），一般简称NLP，通俗理解就是“让计算机能够理解和生成人类语言”。

附上之前文章《》中，分享过的一段解释：

准确率：识别为正确的样本数/识别出来的样本数
召回率：识别为正确的样本数/所有样本中正确的数

举个栗子：全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象，其中18名为男性，2名为女性。则

2、F1值（精准率和召回率的调和平均数）

模型调优后追求F1值提升，准确率召回率单独下降在一个小区间内，整体F1值的增量也是分区间看（F1值在60%内，与60%以上肯定是不一样的，90%以上可能只追求1%的提升）。

P是精准率，R是召回率，Fa是在F1基础上做了赋权处理：Fa=（a^2+1）PR/（a^2P+R）

语音合成（Text-To-Speech），一般简称TTS，是将文字转化为声音（朗读出来），类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音，都是由TTS来生成的，并不是真人在说话。

主观测试（自然度），以MOS为主：

ABX，普通用户评测（主观）。让用户来视听两个TTS系统，进行对比，看哪个好。

对声学参数进行评估，一般是计算欧式距离等（RMSE，LSD）。
对工程上的测试：实时率（合成耗时/语音时长），流式分首包、尾包，非流式不考察首包；首包响应时间（用户发出请求到用户感知到的第一包到达时间）、内存占用、CPU占用、3*24小时crash率等。

对话系统（Dialogue System），简单可以理解为Siri或各种Chatbot所能支持的聊天对话体验。

1、用户任务达成率（表征产品功能是否有用以及功能覆盖度）

（1）比如智能客服，如果这个Session最终是以接入人工为结束的，那基本就说明机器的回答有问题。或者重复提供给用户相同答案等等。

（2）分专项或分意图的统计就更多了，不展开了。

比如用户完成一个任务的耗时、回复语对信息传递和动作引导的效率、用户进行语音输入的效率等（可能和打断，One-shot等功能相关）；具体定义，各个产品自己决定。

3、根据对话系统的类型分类，有些区别。

CPS（Conversations Per Session，平均单次对话轮数）。这算是微软小冰最早期提出的指标，并且是小冰内部的（唯一）最重要指标；
相关性和新颖性。与原话题要有一定的相关性，但又不能是非常相似的话；
话题终结者。如果机器说过这句话之后，通常用户都不会继续接了，那这句话就会给个负分。

留存率。虽然是传统的指标，但是能够发现用户有没有形成这样的使用习惯；留存的计算甚至可以精确到每个功能，然后进一步根据功能区做归类，看看用户对哪类任务的接受程度较高，还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程；到后面积累的特征多了，评价机制建立起来了，就可以上强化学习；比如：之前百度高考，教考生填报志愿，就是这么弄的；
完成度（即，前文提过的“用户任务达成率”）。由于任务型最后总要去调一个接口或者触发什么东西来完成任务，所以可以计算多少人进入了这个对话单元，其中有多少人最后调了接口；
相关的，还有（每个任务）平均slot填入轮数或填充完整度。即，完成一个任务，平均需要多少轮，平均填写了百分之多少的槽位slot。对于槽位的介绍，可详见《》。

最终求助人工的比例（即，前文提过的“用户任务达成率”相关）；
重复问同样问题的比例；
“没答案”之类的比例。

整体来说，行业一般PR宣传时，会更多的提CPS。其他指标看起来可能相对太琐碎或不够高大上，但是，实际工作中，可能CPS更多是面向闲聊型对话系统，而其他的场景，可能更应该从“效果”出发。比如，如果小孩子哭了，机器人能够“哭声安慰”，没必要对话那么多轮次，反而应该越少越好。

4、语料自然度和人性化的程度

目前对于这类问题，一般是使用人工评估的方式进行。这里的语料，通常不是单个句子，而是分为单轮的问答对或多轮的一个session。一般来讲，评分范围是1~5分：

1分或2分：完全答非所问，以及含有不友好内容或不适合语音播报的特殊内容；
3分：基本可用，问答逻辑正确；
4分：能解决用户问题且足够精炼；
5分：在4分基础上，能让人感受到情感及人设。

另外，为了消除主观偏差，采用多人标注、去掉极端值的方式，是当前普遍的做法。

常规互联网产品，都会有整体的用户指标；AI产品，一般也会有这个角度的考量。

在特殊场景会有变化，比如在车载场景，会统计“DAU占比（占车机DAU的比例）”。

2、被使用的意图丰富度（使用率>X%的意图个数）。

3、可尝试通过用户语音的情绪信息和语义的情绪分类评估满意度。

尤其对于生气的情绪检测，这些对话样本是可以挑选出来分析的。比如，有公司会统计语音中有多少是骂人的，以此大概了解用户情绪。还比如，在同花顺手机客户端中，拉到最底下，有个一站式问答功能，用户对它说“怎么登录不上去”和说“怎么老是登录不上去”，返回结果是不一样的——后者，系统检测到负面情绪，会提示转接人工。

本篇分享，介绍了现在行业内对语音交互系统的常见评价指标，一方面，是提供给各位AI产品经理以最接地气的相关信息；另一方面，也是希望大家基于这些指标，打造出更好的产品体验效果。

黄钊（hanniman），图灵机器人-人才战略官，人人都是产品经理专栏作家，前腾讯产品经理，微信公众号/知乎/在行/饭团“hanniman”。5年人工智能实战经验，8年互联网行业背景。“人工智能产品经理”概念的推动者，被AI同行广泛传播的200页PPT的作者。关注人机交互（特别是语音交互）在手机、机器人、智能汽车、智能家居、AR/VR等前沿场景的可行性和产品体验。

本文原创发布于人人都是产品经理，未经许可，不得转载

数媒时代的蓬勃发展，在设计界带来了一股潮流，特别是APP的应用，更是受到企业的广泛使用，由此导致的UI设计师不断涌入设计行业。UI设计的重要性在APP设计中起着非常重要的作用，因为界面的设计无论是其中所包含的交互设计，还是其功能性都是从人本主义出发，因此UI设计的根本是以人为中心的设计，其需求也是满足人的需求，机器所起到的作用仅仅是传达信息，让人使用的作用，但很多UI设计师并没有以人为本，也没有考虑人的心理、生理需求，特别是UI设计初学者，常常会忽略这点。