OpenAI 12天发布会：Day 6 高级语音模式增强，视频输入和屏幕共享功能的加入

发表评论 / AI行业动态

Table of Contents

引言

在OpenAI的12天发布会中，第六天的亮点是ChatGPT高级语音模式的增强，该模式引入了视频输入和实时屏幕共享功能，极大地提升了ChatGPT的多模态交互能力。

高级语音模式增强概览

技术背景

OpenAI在第六天的发布会上宣布，ChatGPT的高级语音模式（Advanced Voice Mode）现在支持视频输入和屏幕共享功能，这使得ChatGPT能够“看到”用户和周围的环境，从而更直观地理解和响应用户的指令和问题。

技术特点

视频输入功能：ChatGPT的高级语音模式加入了视频输入功能，使其能够“看到”用户，提供更自然的对话体验。
屏幕共享功能：通过屏幕共享功能，用户可以与ChatGPT共享手机屏幕上的内容，例如在回复消息或进行工作和学习时获得帮助。
圣诞老人虚拟角色：12月份期间，用户还可以通过高级语音模式与“圣诞老人”进行视频或语音通话，增加了节日的趣味性。

核心功能

实时视频对话

自然交互体验：ChatGPT现在可以进行实时视频对话，提供类似真人视频聊天的互动体验。

屏幕共享协作

问题解决：用户可以通过屏幕共享功能，让ChatGPT帮助解决手机上的应用问题，例如回复消息或指导完成特定任务。

视觉识别与指导

视觉识别：在演示中，ChatGPT能够识别用户穿戴的圣诞帽以及咖啡设备，并根据视觉信息提供制作手冲咖啡的步骤指导。

结语

OpenAI在Day 6的发布会中展示的高级语音模式增强，标志着ChatGPT在多模态交互方面迈出了重要一步。视频输入和屏幕共享功能的加入，不仅提升了用户体验，也为AI的实用性和互动性开辟了新的可能性。随着这些功能的进一步发展和应用，我们期待看到更多创新的场景和更深层次的交互。

发表评论取消回复