学分高考 中专

36氪专访 | 清华大学、聆心智能黄民烈:AI心理健康的技术突围战

发布时间: 2022-06-03 00:36:01

原标题:36Kr |清华大学灵芯智能黄敏烈专访:AI心理健康的技术突破

人工智能在心理健康领域能走多远?

在之前的一些相关报告(报告1和报告2)中,36Kr初步探讨了人工智能在供给侧严重不足的精神健康行业的潜在机遇和挑战。

近年来,人工智能因为算法无法解释、鲁棒性和安全性问题,以及人工智能在弱AI时代的低性能,过于依赖数据驱动,引起了大众对人工智能的怀疑。

人工智能从诞生之日起就背负着伦理的枷锁。现在AI要切入心理健康轨道,介入人的精神和心灵,所以伦理要求和风险更高。此外,在组织和交付体验方面,人工智能解决方案和人工服务存在根本差异。伦理风险和经验差异使我们需要进一步探索。AI解决方案和人类服务,甚至AI和人类之间应该是什么关系?

同时,AI心理学的解决方案也非常困难,需要AI+心理健康跨学科团队形成对心理健康业务场景的深度洞察,数字化解构场景和不同流派的疗法,重新设计数据标签体系,形成算法逻辑、知识图谱、策略和高数据成本的训练模型...有很多困难和局限需要突破。在36Kr过去的报道中,一直有读者对心理AI的表现水平持怀疑态度的评论。

谨慎与怀疑,乐观与勇气,这一切都是我们在危险、可能、价值、真知中穿梭前行的风帆。技术怀疑论者和技术乐观主义者一样重要。

中国人工智能-自然语言处理领域专家、清华大学计算机科学与技术系副教授黄敏烈于2021年创办了人工智能精神健康企业“灵心智能”。灵芯智能也是NLP(自然语言处理)基因在该赛道的先锋团队之一。

灵芯智能自主研发精神心理学领域的数字治疗和AI情感对话机器人,通过灵芯雷友、AI数字治疗App、AI情感对话机器人emohaa等心理咨询服务线上平台,服务不同层次需求的用户。

作为中国自然语言处理领域的前沿学者和AI心理健康的前沿实践者,黄敏烈教授带领灵芯智能创始团队接受了36Kr的采访,分享了他们在自然语言处理和AI心理健康方面的知识和经验。从他们的角度,36Kr试图为自己和感兴趣的读者提供一个探索答案的素材。

(以下采访内容经摘编简化编辑解密)

01 AI+心理健康的定位

36Kr:如何理解AI+数字治疗在精神健康行业的定位?

黄敏烈团队:这个行业很大,用户需求分不同层次。对于轻度亚健康人群,AI计划主要提供情感陪伴和支持。对于轻中度健康状态的人群,采用数字治疗+AI的方式进行干预。重症的人必须接受会诊和治疗,AI切入的角度可能是个性化的精准诊疗,同时帮助患者进行院外康复干预等等。不同层次的AI会扮演不同的角色。

目前行业还处于争夺状态,没有哪家玩家能整合全产业链。大家立足自身禀赋,发挥所长,不同业态互补。

36Kr:如何理解自然语言处理和数字治疗在解决方案中的作用?

黄敏烈团队:自然语言处理在整个方案的不同节点起着关键作用。比如通过自然语言对话系统,满足用户不同层面的需求,包括但不限于情感、陪伴、给出建议等等。在辅助诊疗方面,我们利用自然语言处理技术,将用户的输入信息处理成符合精神心理诊断体系的计算机符号表达,并映射这种表达与医学专业诊断的关系,为理解用户的输入提供底层架构的支持。

最后,在数字治疗-数字医学的发展中,一方面,自然语言处理作为理解用户需求的最基本工具,结合符合其需求的循证算法模型,为用户提供最有用的医学数字治疗解决方案;另一方面,我们的自然语言处理技术本身具有生成模型的情感支持能力,因此也会是数字治疗的组成部分,这也是市场上独有的技术。

无论是自然语言处理还是其他技术和算法,其实都算R&D人员。那么我们最终形成的解决方案是可以被用户或者访客感知的。那么就要优先考虑治疗效果的准确性、专业性和高效性。对我们来说,数字治疗是产品的核心部分。通过它,我们可以反推算法的需求和不同的派生功能和设计。

02关于数字治疗

36Kr:整个心理智能疗法的工作流程是怎样的?

黄敏烈团队:首先从筛选和评估开始。然后是干预康复,即提供所谓的数字医学,包括但不限于CBT、DBT等已被证明能治愈情绪障碍的循证疗法。是在最终恢复期和稳定期对用户状态的长期跟踪健康管理。

我们的干预计划也会随着用户自身状态的变化而动态调整。我们的算法模型将更加了解用户自己的认知路径。比如每个人的说话方式,都能反映出他背后的思维方式和逻辑联系。一旦用户的认知被算法很好的捕捉,我们就可以更好的根据用户自身的特点为用户提供治疗,可以更好的提高用户的依从性和治疗的有效性。当然,我们还处于临床试验阶段,我们也在不断迭代和改进。

我们从认知、情绪和行为三个维度构建了整个治疗模型,因此该治疗包括认知行为疗法、DBT、IPT、正念和其他治疗。虽然CBT目前在科研上有很多有效证据,但是是因为CBT更容易量化,更容易形成论文,所以有效证据更多,还是真的最有效?这还有待证实。另外,从临床的角度来看,我们一直认为本土化的CBT研究并没有得到很好的发展。所以我们会结合更多的临床经验,看看什么样的框架能有效拆解问题,最终决定采用认知、情感、行为三个维度,整合逻辑,然后用AI来实现。

36Kr:能不能给我们一个具体的例子,AI是如何围绕认知、情绪、行为这三个维度来制定应对策略的?

黄敏烈团队:比如一个抑郁的用户使用一个智能聊天机器人。首先,机器人探索用户的问题类型和关键事件。然后用户可能会说我心情不好,因为和女朋友分手了。这个时候机器人可能会进行相应的策略,比如共情,也就是情绪映射,说,嗯,分手通常是一件伤心的事。然后,机器人会进一步探索,说,你现在有什么要说的或者要做的吗?

借鉴心理咨询的理论,我们将这一互动过程分为探索、安抚和建议三个阶段。每个阶段都设计了丰富的策略,包括提问、自我暴露、情绪映射、提供信息、确认、奇迹提问等等。比如自我暴露策略,就是机器人回复用户我有过类似的痛苦经历,然后希望和用户有更多的情感联系。这些策略是有心理学理论支持的。

在心理咨询的过程中,人和机器有一个很大的区别,就是人能产生非常强烈的共情。人类感同身受后,与来访者讨论问题。机器虽然能感同身受,但强度肯定没有别人丰富。

那我们该怎么办?我们现在采用的方法,是在与用户对话的过程中,更多地调动用户自身的思维能力——也就是他的认知,通过一些技术和策略的方式,避免机器人不容易理解和混杂在一起的复杂情绪。

比如我跟机器人说我工作很累。如果一个人回复我,他可能会告诉我他累了会做什么。所以在算法的编写过程中,我们会给机器人一个稳定的人类设定,它会对不同的情况有自己的反应。一个有人类的机器人会告诉我,它累了会做什么,为什么它会认为它在工作——这是机器人在使用自我暴露策略。

其次,当机器人听到用户说他很累的时候,他可能会问用户,当他感到有压力的时候,他通常会做什么。他觉得这个东西有效吗?如果这个东西暂时不行,用户要不要试试别的方法?然后机器人会介绍一些干预措施和练习。我们用这些策略安抚用户的情绪,同时让用户独立思考什么最适合自己。

36Kr:数字治疗的设计和开发的主要困难是什么?

黄敏烈团队:最难的是把咨询师的认知和语言“翻译”成AI逻辑。比如CBT治疗咨询师在评估患者是否达到了预期的治疗效果时,标准通常是患者的社会功能是否恢复到了正常水平。对于人工智能来说,在个体层面什么是正常的?在AI算法开发的过程中,我们需要量化这个目标。

这和我们平时的心理咨询是不一样的,因为我们的人工咨询会有一个动态的评估过程。目前,我们根据数据和案例,不断调整评价的量化指标权重,以达到最准确的动态评价。

类似这种“翻译”,听起来不难,实际操作起来并不容易。需要AI人才和心理咨询人才的大量碰撞,才能重新设计。

36Kr:倾听心智和智力的循证医学临床试验和真实世界研究是如何组织的?基于隐私和伦理问题,你认为数据的局限性和难点在哪里?样本偏差是多少?如何控制和平滑样本偏差的影响?

黄敏烈团队:我们训练模型的数据都是真实世界的数据,隐私和伦理是我们首先考虑的。在收集我们真实世界数据的过程中,机构和顾问会得到访问者的许可。当我们拿到数据的时候,我们的数据已经被脱敏了,所以在这个层面上可以很大程度上避免隐私泄露。

我们现在的数据来源不仅仅是心理咨询,还有很多其他非心理咨询的数据来源。我们尽最大努力确保我们的数据能够覆盖所有人口样本和人们可能遇到的大多数问题。

所以我们在标注数据的时候,会更细致的标注所有可能的维度,然后,在使用样本数据的时候,尽量避免样本偏差。但是,必须承认,完全避免偏差是不可能的。需要注意的是,临床使用的机器人是有适应症或者人群限制的,我们要用一个数据源来面对各种年龄段的来访者。

36Kr:请介绍一下灵信智能获得NMPA批准的情况。如何展望数字治疗后续的监管发展和政策变化?

黄敏烈团队:目前已经开始做临床试验,接下来会取得医疗机械认证。

我们看好政策,认为趋势和节奏会越来越快。美国心理健康机器人Woebot获得FDA认证,海外趋势必将推动国内监管政策的发展。与此同时,国家正在大力推进社会心理服务体系。比如中国的北京、海南都设立了数字治疗认证中心,我们的方向就是这个大体系下非常重要的一环,可以惠及广大民众。

当然,我们可能需要一点时间让监管完成各方面的风险评估。但由于目前数字治疗的副作用会非常小,甚至几乎不存在,因此与传统药物等其他治疗方法相比,数字治疗获得监管部门批准的速度会更快。

也正是政策的利好和支持,希望业内同仁能真正从实践中找到临床价值,而不仅仅是为了盈利。任何事情都要做深做实,才能真正有效果。但是,只有真正造福于民的有用有效的产品,才能推动行业标准、规范、监管体系的形成,才能真正推动一个行业的大发展。

03关于自然语言处理

36Kr:如何理解算法可解释性、算法鲁棒性等的局限性?,自然语言领域的可信AI经常提到的有哪些?

黄敏烈团队:关于可信人工智能,学术界一直在做相关研究,并取得了一些可喜的进展。

比如在安全方面,我们最近在做对话系统的安全研究,让对话AI可以有价值观,有更多的伦理知识,让人工智能知道什么是对的,什么是错的。比如让AI知道不能得罪用户,知道自杀是不好的,知道什么是真善美等等。

人是可以安全信任的,包括算法的可解释性。因为现在大部分AI算法都是黑匣子,我们对算法是如何决策的了解还不够。这极大地限制了我们算法和模型的应用场景,尤其是在医疗领域。在精神智能的研究中,无论是情感支持机器人还是筛查/辅助诊疗算法,都考虑到了算法的可解释性。我们的可解释性主要体现在AI的决策总是与其角色行为逻辑一致。我们通过知识图谱对齐心理学家专业知识中的关键概念,从而知道人工智能算法的决策是如何产生的。在这方面,我们还在探索,不断进步。

在语言理解方面,多一个词或者少一个词,可能识别的类别会有很大的不同,这就是所谓的鲁棒性问题。我们也有相应的算法研究和技术解决方案。在语言生成方面,用户输入可能略有变化,但生成的结果会千差万别,这也是AI模型的鲁棒性。

36Kr:你如何理解人类与人工智能的关系——你如何理解独立AI和辅助AI?独立AI和辅助AI只是技术成熟度差异导致的阶段性差异,还是基于什么基本面变量?

黄敏烈团队:我个人认为独立AI和辅助AI是基于应用场景的风险特征来划分的。有些应用风险很大,一旦出错,成本会很高。另外,一些场景的风险承受能力会更大。比如在医疗诊断领域,我们能做的只有辅助AI,因为一旦诊断错误,伦理风险和成本会非常高——即使模型准确率达到95%以上,我们还能独立诊断吗?首先这个没法监管。比如现在独立AI刷脸的准确率已经达到99%以上,我们可能不敢直接刷脸支付,可能还需要辅助的认证手段,比如做一些动作,比如眨眼、摇头。

因此,这与应用程序的安全性密切相关。比如做手语AI,错了也没多大关系;比如智能客服卖产品,卖一个保险产品和一个银行理财产品,AI打一个电话,通过固定的文字和策略进行销售,然后结束。这些场景做独立AI没有问题。

另外,还有一些情况,由于技术限制,暂时无法实现独立AI。比如我们以前做的银行贷款催款业务,因为很复杂,在目前的技术水平下,还是需要AI与人合作。

36Kr:能不能给我们概述一下自然语言处理过去克服了哪些技术上的困难,在多轮对话的语义理解和语言生成方面,目前达到了什么水平?还有哪些瓶颈需要克服?

黄敏烈团队:我简单说一下我自己的经历。经过几十年的发展,自然语言处理在近几年终于有了很大的突破,无论是语言理解还是语言生成,性能都有了显著的提升。

我们以对话系统为例。从1966年到2010年左右,人工智能对话系统主要是基于规则的。但从2020年开始,出现了基于神经网络和大数据的大模型对话系统。这个对话系统的开放对话能力和以前不是一个级别的——包括我们最近做的emohaa对话机器人,它的对话能力在三年前是超乎我们想象的。在技术发展的过程中,我的感觉是技术发展突然跳到了另一个明显更高的平台。除了对话,我们还看到了各种技术突破:阅读理解、图像分类、诗歌写作等。开始超越人类的表现。AI甚至可以写文章,做简单的修改,然后发表在《卫报》上。

但即便如此,我们仍然面临很多问题,AI与人之间还有很长的路要走。这是因为人有很多知识和推理能力。说到知识和推理,数据驱动的算法不太好。我们太依赖数据驱动,不能泛化语言理解和推理。模型见过的能做好,没见过的不一定能做好。这让我们在对话的过程中遇到了矛盾和答非所问。同时还面临着可解释性、鲁棒性等问题。

36Kr:在自然语言处理技术发展有限的情况下,你认为NLP需要什么水平才能有一个好的心理健康解决方案?过度依赖数据驱动的问题有什么可能的解决方案?

黄敏烈团队:基于规则的AI系统对数据的依赖要小得多,但今天的深度学习模型对数据的依赖程度极高。在深度学习模型中,我们还可以通过规则和符号将专家知识与数据驱动结合起来。这样会大大降低对数据的依赖。由于专家的知识和规则,AI也可以处理它从未见过的事情,处理未知,促进更好的性能。

所以心理健康的AI方案最重要的是算法和这方面的专业知识相结合。我们将心理健康的专业知识转移到AI模型中。比如我们的emohaa机器人,可以掌握心理咨询领域已经发展了几百年的技术,比如自我暴露、倾听、提问、情绪映射等。同时也要清楚的知道AI模型的哪些方面有短板,知道如何利用心理健康专业知识来弥补目前AI能力的短板,做技术规避。

04关于模型和数据

36Kr:提炼、解构、设计合适的数据标签有什么困难?人工标注的过程中有没有什么困难和局限,连正常的自然人都很难做好?

黄敏烈团队:心理咨询理论已经发展了100多年,形成了比较成熟完整的理论。比如针对某一类来访者,咨询师应该用什么技术来提供更好的服务,其实已经开发出了标签系统。然而,将这些类别和标签完全移入人工智能模型将是困难的。首先,这个数据标注不是一般人能标注的,需要专业资源标注,导致标注成本很高。其次,分类体系越细致越复杂,AI模型不一定能学会,比如可能会受到数据标注一致性的影响。

以情感类为例。我们以前在学术界做的是细粒度的情绪分析,在主流研究中采用了六种情绪类别,分别是喜、怒、悲、喜、悲、其他。但在心理咨询中,情绪可以细分为32类。即使聘请心理专业人士给他们贴标签,标签也太薄,难以分辨。不同的人有不同的理解,会导致数据标注的一致性问题。因此,听智设计了10种情绪的标签系统。

除了情感类,比如咨询师的技术体系,来访者意图的识别等。我们还根据类似的方法重建了一个标签系统。这样既平衡了资源和成本,又保证了专业性和有效性。这是基于我们团队对心理健康的深入专业理解。

就手工贴标的一致性而言,培训、质量控制和贴标人员的专业背景都非常重要。我们的贴签工作很多是针对心理学专业的学生,实习心理咨询师,执业心理咨询师,我们和专业的心理咨询机构合作。所以数据标注的成本非常昂贵,时间成本也非常高。

36Kr:评估成本太高了吗?

黄敏烈团队:我们分为算法自动评测和人工评测。算法自动评测,通过让AI做一些试题并打分,成本很低。但是,人工评估的成本更高。比如我们在评测我们的emohaa机器人的时候,会找很多用户跟它聊天,然后根据互动情况给结果打分。

36Kr:我们现在的预训练模型的参数尺度是什么水平?大概的数据来源有哪些?除了昂贵之外,高性能预培训模式的障碍是什么?

黄敏烈团队:我们前期训练的模型参数在100亿左右,就算不是全行业最大的,也是顶尖的。数据来源方面,主要包括公共社交媒体、合作授权的专业精神卫生数据以及本实验室过去6-7年独立积累的数据。数据量在几十亿到几百亿字之间。

一个参数巨大的前期训练模型,一般机构是做不出来的。首先,计算能力非常昂贵。其次,数据比计算能力更昂贵,更难获得。这里面还有很多脏活累活,需要多年的积累。

而且,单纯的创建模型,离产品应用还很远。如果只是做研究,反正可以做个模型玩玩。但是你要做一个产品,会涉及到很多功能优化,你会发现模型里有很多处理不了或者处理不好的情况,需要工程力量去优化、改进、避免。目前我们的工程能力处于行业顶尖水平。

36Kr:你如何进行迁移?

黄敏烈团队:一方面,主要通过与特定人群相关的数据对模型进行微调;另一方面,根据具体场景构建知识图谱。基本上可以很快调整好投入使用。

05角色转变

36Kr:从科学家到科学家+企业家,你个人的感受和挑战是什么?

黄敏烈:两个身份的相似之处是带团队,找资源——做科学家培养学生,找项目资金;当企业家是一个领导各种更复杂的社会的人,他创造收入,寻找融资。同时,两种身份都是解决问题和规划的方向。

科学家面临的问题更简单、更纯粹。去探索一些科学问题和先进技术,相对来说,确定性在可控范围内。但是商业更复杂,不确定性更大,要考虑的变量更多,做决策会更困难。我觉得这是最大的不同。

最大的挑战是如何打通“技术-产品-商品”的路径,因为每个阶段的思维都不一样。技术是科学家开发的算法、模型和原型系统。产品是一种工程服务或实物,会影响用户的可用性。商品是可以重复出售并兑换成现金的产品。

希望未来的投资人能有社会情怀和前瞻性,认可AI+心理健康的赛道,在医疗、心理、AI方向有一些资源,愿意和公司合作,短期内不急于变现。回搜狐多看看。

负责编辑:

温馨提示:
本文【36氪专访 | 清华大学、聆心智能黄民烈:AI心理健康的技术突围战】由作者教培参考提供。该文观点仅代表作者本人,学分高考系信息发布平台,仅提供信息存储空间服务,若存在侵权问题,请及时联系管理员或作者进行删除。
我们采用的作品包括内容和图片部分来源于网络用户投稿,我们不确定投稿用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的权利,请联系我站将及时删除。
内容侵权、违法和不良信息举报
Copyright @ 2024 学分高考 All Rights Reserved 版权所有. 湘ICP备17021685号