OpenAI更新ChatGPT:支持图片和语音输入
IT之家 9 月 25 日消息,近日 OpenAI 宣布推出新版 ChatGPT,增加了两项新功能:语音输入和图像输入。据 OpenAI 称,新功能将在未来两周内向 ChatGPT Plus 订阅用户推出,其他人也将“很快”能够使用这些功能。
语音输入功能类似于手机上的语音助手,用户只需按下一个按钮,说出自己的问题,ChatGPT 就会将其转换为文本,然后生成答案,再将答案转换为语音,播放给用户。OpenAI 表示,这样的交互方式更加自然和便捷,而且由于 LLM 的技术优势,答案的质量也会更高。OpenAI 还开发了一种新的文本转语音模型,可以根据几秒钟的样本语音,生成与之相似的人声。用户可以从五种选项中选择 ChatGPT 的声音,而且这种模型还有更多的潜在用途。例如,OpenAI 正在与 Spotify 合作,将播客翻译成其他语言,同时保留播客主持人的声音。不过,这种模型也存在一些风险,比如可能被恶意利用来冒充公众人物或进行诈骗。因此,OpenAI 表示,这种模型不会被广泛开放,而是会受到严格的控制和限制。
图像输入功能则类似于 Google Lens,用户可以拍摄自己感兴趣的事物,并上传到 ChatGPT 中。ChatGPT 会尝试识别用户想要询问的内容,并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题,或者配合语音或文本输入来进行交流。ChatGPT 的优势在于它可以进行多轮对话,而不是一次性搜索。如果用户对答案不满意或想要更多信息,可以继续向 ChatGPT 提问,从而得到更准确和全面的答案。当然,图像搜索也有一些潜在问题。例如,在处理人物图片时,OpenAI 表示他们限制了 ChatGPT 对人物进行分析和直接评价的能力,既为了保证准确性,也为了保护隐私,这意味着上传一个人的照片就能知道他 / 她是谁还无法实现。
IT之家注意到,自从 2022 年初推出 ChatGPT 以来,OpenAI 一直在努力为其机器人增加更多功能和能力,同时避免造成新的问题出现。通过这次更新,该公司试图在这条界线上寻找平衡点,通过有意识地限制其新模型能做什么来实现这一目标。但是这种方法并不是长久之计,随着越来越多的人使用语音控制和图像搜索,以及 ChatGPT 逐渐成为一个真正的多模态、有用的虚拟助手,要保持安全和合理的边界会变得越来越困难。
您可能也感兴趣:
官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
台积电11月营收2060.3亿新台币 同比环比均下降
消息称特斯拉Dojo超级计算机项目负责人已于11月份离职
AMD推出最新人工智能芯片挑战英伟达 股价飙升近10%
腾讯大股东Prosus再减持 今年4月以来套现超50亿美金
外媒:特斯拉Cybertruck具有“涉水模式” 可帮助车辆在水中行驶
华硕竟然推出了一款能装硬盘的显卡
外媒称特斯拉上海超级工厂37秒下线一辆整车 远快于得克萨斯超级工厂
消息称AMD Instinct MI300系列出货量预计将达到30-40万颗
更多
- 外媒称SK On也已开始研发4680电池 明年决定是否商业化生产
- 消息称苹果计划未来两到三年每年在印度生产超5000万部iPhone
- 三星显示可折叠显示屏市场份额有降低 京东方有望增至18%
- 法拉第未来即将交付两辆FF 91 2.0:一辆给自家员工 另一辆给Motev
- 台积电11月营收2060.3亿新台币 同比环比均下降
- 消息称特斯拉Dojo超级计算机项目负责人已于11月份离职
- 航拍显示一批国产右舵版焕新Model 3准备出口 已运送到码头
- SK海力士成立新部门AI Infra 负责人工智能半导体业务
- AMD推出最新人工智能芯片挑战英伟达 股价飙升近10%
- 外媒:特斯拉Cybertruck具有“涉水模式” 可帮助车辆在水中行驶