OpenAI 将在 ChatGPT 推出语音和图像对话功能
语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的示例语音中生成类似人类的音频,并使用开源语音识别系统 Whisper 将口语转录为文本,然后生成答案,再将答案转换为语音,播放给用户;图像功能由多模态 GPT-3.5 和 GPT-4 提供支持,将语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档,允许用户向 ChatGPT 显示一个或多个图像,ChatGPT 会尝试识别用户想要询问的内容,并给出相应的回答,比如探索冰箱中的内容以计划用餐,或分析与工作相关数据的复杂图表等等。
免责声明:作为区块链信息平台,本站所发布文章仅代表作者个人观点,与Bi123立场无关。文章内的信息、意见等均仅供参考,并非作为或视为实际投资建议。
最有价值的区块链信息和数据平台