人工智能正在改变视障用户的观光方式
突破正在改变视障人士体验世界的方式,为他们提供以前所未有的方式发现、理解和体验未知之地之美的工具。研究:人工智能系统使失明和视力低下的人更容易解释和体验陌生的环境。图片来源:Angel Santana Garcia/Shutterstock.com 来自中国的一组研究人员开发了一种人工智能 (AI) 系统,可以帮助视障人士探索、理解和享受陌生的环境。该研究发表在《自然》杂志《人工智能》上。背景自然环境的研究...
人工智能正在改变视障用户的观光方式
突破正在改变视障人士体验世界的方式,为他们提供以前所未有的方式发现、理解和体验未知之地之美的工具。
研究:人工智能系统使失明和视力低下的人更容易解释和体验陌生的环境。图片来源:Angel Santana Garcia/Shutterstock.com
来自中国的一组研究人员开发了一种人工智能(AI)系统,可以帮助视障人士探索、理解和享受陌生的环境。该研究发表在自然组合期刊人工智能。
背景
探索公园等自然环境对身心健康具有显着的积极影响。然而,视力低下或失明的人往往被排除在这些福利之外,因为没有足够的工具来主动与他们互动。
现有的旨在引导视障人士的辅助解决方案主要侧重于提供导航和避障等功能支持,使他们能够被动地与大自然接触。
视障人士在探索陌生的环境时常常感到无助。这通常意味着他们依赖家人、朋友或志愿者的支持,这会影响他们积极探索和理解陌生环境的能力,以及记住并与其他视障人士交流他们的旅程的能力。
中国的一组研究人员开发了一种名为 Viptour 的人工智能系统,为视障人士提供在陌生环境中的独立感。
维普旅游如何运作?
Viptour 是一个人工智能驱动的系统,包括一系列轻量级、便携式、消费级设备(相机和智能手机)和名为 Focusformer 的新型深度学习算法网络。音频和分层触觉交互等高效的多感官交互技术增加了视障用户与 Viptour 系统之间的交互。
Focusformer 将美观、新鲜度(新奇)和基本需求(包括导航和安全)视为从复杂、陌生的环境中提取有意义的信息并消除冗余视觉细节的关键因素。这减少了视障用户的认知负担。
Focusformer 将大量信息转化为结构化、稀疏且分层的个性化图表。基于这个结构良好的图表,Focusformer 通过智能手机应用程序与视障用户进行交互,了解他们的偏好并通过适配器提供个性化支持。
它利用数千条视力正常的游客的公共旅游视频进行自我训练,有利于有效减少审美偏见。
Viptour系统还提供记录、保存和分享经验的选项,促进视障人士之间的情感交流,并促进他们在社交网络中的知识和经验交流。
Viptours的技术创新在于其Multi-T Focus Focusformer网络。这种方法使用背景子网络来过滤掉经常看到的对象,使用吸引力子网络来识别亮点,使用新鲜度子网络来发现新颖的特征,并使用对视障参与者进行的调查进行训练的子网络。这些子网络结合起来,为每个用户选择、排名和呈现最相关的信息。
Viptour 系统还使用 Blv-in-the-Loop 适配器,根据“喜欢”和“不喜欢”等个人用户指标实时更新其推荐,从而实现个性化。
用户对 维普旅游 的评价
Viptour 系统对 33 名失明或视力障碍人士进行了测试,并收集了自我报告的情绪体验进行分析。
在辅助表现方面,研究发现Viptour系统能够有效帮助视障人士主动探索和深入了解陌生的环境,赋予他们准确而持久的记忆,并帮助他们与同事进行沟通。
通过对自我报告体验的详细分析,研究发现,使用Viptour的参与者成功实现了积极情绪反应增加67.9%、唤醒度增加94.7%、认知图准确度增加772.73%、长期记忆保留增加200%。
在用户评价中,Viptour系统的可用性得分始终高于80分(满分100分),与其他视障人士辅助工具相当或更好。
使用 Viptour 后,生理测量(包括皮肤电活动和心率变异性)显示出显着改善,表明情绪投入有所改善。
调查意义
该研究强调了人工智能驱动的 Viptour 系统的潜在用途,为视障人士提供愉快而难忘的体验,同时积极探索陌生的环境。这些经历可以显着改善他们的情绪状态并提高他们的整体生活质量。
现有证据表明,呈现有组织且引人入胜的信息可以提高人们的享受并促进更深层次的记忆保留。人们倾向于处理结构良好且有意义的信息,这使他们的经历更加愉快和难忘。
这种人类倾向可以用认知流畅度的概念来解释,它表明清晰且有组织的信息呈现可以减少个人的认知负担。然后,它可以帮助他们引导心理资源来理解和整合内容。当人们更愉快地感知信息时,处理流畅性的提高会带来积极的反应。
此外,新奇和熟悉的信息之间的相互作用会影响有组织的和有趣的信息对记忆的影响。新奇的信息激发好奇心并提高注意力,而熟悉的信息则提供认知舒适度和连贯性。
以结构化且引人入胜的方式呈现信息可以平衡新颖性和熟悉性,这有助于保持个人的兴趣和参与度。
Focusformer对数千个未标记的公共旅游视频进行自监督训练,有效捕捉认知语言知识,揭示旅游场景中不同概念之间的统计关系。这种方法消除了旅游偏好标签中的潜在偏差,并训练模型仅提取相关的上下文信息。
Focusformer 的这些个性化设计考虑使 Viptour 系统能够成功地模拟所需的认知语言技能,从而改善视障人士的旅游体验。
值得注意的是,Viptour 的影响力取决于其底层人工智能技术的质量,例如对象识别和语义图生成。未来对这些方法的改进可以进一步提高系统的性能。
立即下载 PDF 副本!
资料来源:
- Lin H. 2025. AI system facilitates people with blindness and low vision in interpreting and experiencing unfamiliar environments. NPJ Artificial Intelligence. https://doi.org/10.1038/s44387-025-00006-w https://www.nature.com/articles/s44387-025-00006-w