学习通心理健康教育章节答案()
在人工标注的一致性方面,培训、质量控制和标注者的专业背景都很重要。我们很多的标注工作都是心理专业的学生、实习心理咨询师、执业心理咨询师,我们和专业的心理咨询机构合作。因此,数据标注成本非常贵,时间成本也很高。
36氪:评价成本是不是也很高?
黄民烈团队:我们分为算法自动评价和人工评价。算法自动评价,通过让AI做一些测试题并评分,成本就很低。但是人工评价就比较贵,比如我们评价我们emohaa机器人,会找很多用户跟它聊天,然后根据交互情况,对结果进行打分。
36氪:我们目前预训练模型的参数规模大致到了什么级别?数据源大概有哪些?除了贵,一个高性能的预训练模型通常还有什么壁垒?
黄民烈团队:我们的预训练模型参数在100亿规模左右,在整个业界即使不是最大,也是非常靠头部的前几名。在数据源方面,主要包括公开社交媒体、合作授权的专业心理健康数据以及我们实验室在过去6-7年自主积累的数据。数据量在几十亿到几百亿单词量之间。
一个参数巨大的预训练模型不是一般机构能搞得出来的,第一是算力很贵,第二是数据比算力更贵、更难获取,这当中还存在大量的dirty work,需要长年的积累。
而且,单纯创建出一个模型,距离产品应用还很远。如果只是做研究,那随便怎么样都能弄出一个模型来玩。但是,要做产品,就会涉及非常多的功能优化,会发现模型有很多case处理不了、或者处理不好,需要工程力量去优化、改进和规避。目前我们的工程能力在业界是非常拔尖的水平。
36氪:迁移方面是怎么做的呢?
黄民烈团队:一方面主要是通过跟特定人群相关的数据对模型进行微调,另一方面根据特定场景去构造知识图谱。基本能够比较快地调整完毕并投入使用。
05 角色转变
36氪:从科学家身份,转型为科学家+企业家双重身份,有什么个人感受,有什么挑战困难?
黄民烈:两个身份的相通之处都是带团队、找资源——当科学家培养学生、找项目经费;当企业家是带领各种更复杂的社会人,创造营收和找融资。同时,两种身份都是解决问题、规划方向。
科学家所面临的问题更加简单和纯粹一些,探索一些科学问题和先进技术,相对而言,确定性在可控范围内。但商业更复杂、不确定性更大、要考虑的变量更多,决策起来也会更难一点,我觉得这是最大的不同。
面临的最大挑战是如何走通 “技术—产品—商品”的通路,因为每个阶段的思维是不同的。技术,是科学家研究出来的算法、模型、原型系统。产品,是工程化后的、折中了用户可使用的服务或者实物。商品,是可以重复售卖,能换来现金的产品。
希望未来的投资人能有社会情怀和前瞻性,认可AI+心理健康这个赛道,在医疗、心理、AI方向有一些资源,愿意和公司一起耕耘,不急于短期变现。
责任编辑:王与桐