首页技术总结正文内容

ChatGPT实时语音将于本周向免费用户推出：OpenAI DevDay 2024详细解读

技术总结

更新时间：2024-12-22 10:51:41 6

admin 管理员组

文章数量: 886992

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

北美时间2024年10月1日，2024年度的OpenAI开发者大会（OpenAI DevDay 2024）如期而至。

1. ChatGPT实时语音将于本周向免费用户推出

在OpenAI DevDay 2024的最新更新中，OpenAI宣布从本周开始，实时语音功能（Advanced Voice Mode）将面向全球所有ChatGPT Enterprise、Edu和Team用户推出。此外，免费用户也将能够抢先体验到这一功能。

虽然OpenAI如是说，但不出意外，ChatGPT免费用户应该是只能够短暂体验实时语音功能（Advanced Voice Mode）这一新功能。毕竟对于ChatGPT Plus用户，实时语音功能也是有着聊天时长限制的，超过规定的聊天时长后，语音模式将会自动切换为标准语音模式（标准语音模式）。

目前OpenAI并没有给出明确的聊天时长限制，只是表示聊天时长的限制可能会随着计算资源而动态调整。聊天时长达到上限前15分钟，ChatGPT会发出通知提醒。

2. Realtime API

对于开发者，OpenAI推出了Realtime API，允许开发者在其应用中构建快速的语音聊天体验，类似于上面提到的ChatGPT实时语音模式（Advanced Voice Mode），但适用于开发者自己的应用。此API以低延迟提供自然的语音对话，现已面向付费开发者以公测形式推出。除了Realtime API，OpenAI还在其Chat Completions API中增加了音频输入和输出功能，开发者无需再将多个模型组合使用，单次API调用即可实现自然的语音对话体验。

主要特点：

低延迟的多模态体验：开发者可利用Realtime API实现快速的语音到语音转换，并支持在对话中插入功能调用，使语音助手可以执行操作或拉取上下文。
典型应用场景：可用于客户服务、语言学习、健康和健身教练等场景，提供自然流畅的语音交互。
音频定价：Realtime API支持文本和音频输入输出，按token分别计费，价格为每百万个输入音频tokens 100美元，每百万个输出音频tokens 200美元。
安全与隐私：Realtime API具备多层安全防护，防止滥用，并对用户输入输出进行监控。

3. 在Playground中自动生成Prompt

在OpenAI DevDay的更新中，OpenAI在Playground推出了自动生成Prompt提示词的功能。此功能可以帮助开发者更快地将想法转化为原型。开发者只需简单描述其使用模型的目的，Playground就会自动生成提示、有效的函数架构和结构化输出格式，让开发者更轻松地进行原型设计。

用过Claude控制台的小伙伴应该可以联想到，OpenAI新推出的这个功能对标的就是Claude几个月前在控制台添加的自动生成提示词的功能。详情可以看我这篇文章：《Claude更新王炸功能：一键生成、评估、优化提示词！》。

4. Prompt Caching（提示缓存）

此外，OpenAI推出了Prompt Caching（提示缓存）功能，让开发者能够降低使用成本并加快提示词处理速度。此功能可自动对模型最近处理过的输入令牌进行缓存，开发者可以以50%的折扣价格重复使用这些令牌，并且不会影响延迟。

主要特点：

折扣与定价：对于已经缓存的输入令牌，开发者可以获得50%的折扣。例如，GPT-4o模型的未缓存输入令牌费用为每百万tokens 2.50美元，而缓存令牌的费用为1.25美元。
自动应用：Prompt Caching将自动应用于最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini模型，以及它们的微调版本。提示内容超过1024个令牌时，API会自动缓存，开发者无需修改API集成。
缓存清除：缓存通常在5到10分钟不活跃后清除，并在最后一次使用后一小时内完全移除。
企业隐私承诺：缓存不会在组织之间共享，且遵循OpenAI的企业隐私协议。

最后提一句，OpenAI这次推出的Prompt Caching（提示缓存）功能对标的也是Claude在今年8月推出的同名称的功能。

5. Model Distillation（模型蒸馏）

OpenAI在本次更新中推出了Model Distillation（模型蒸馏）功能，这是一个用于微调较小、成本效益更高模型的工作流程，利用大型模型（如GPT-4o或o1-preview）的输出来提升性能。

模型蒸馏的主要功能：

存储完成（Stored Completions）：开发者可以通过API捕捉并存储模型生成的输入输出对，生成用于微调的数据集。这使得使用生产数据构建数据集变得更加简单，以便评估和微调较小的模型。
评估（Evals，测试版）：开发者可以在OpenAI平台上创建和运行自定义评估，以衡量模型在特定任务上的性能。Evals与微调流程完全集成，也可以独立使用来评估模型性能。
微调集成：存储完成和评估工具与现有的微调功能相结合，开发者可以使用存储的完成数据集进行微调，并使用Evals测试微调后的模型性能。

模型蒸馏工作流程：

通过Evals创建一个评估，以测试目标模型（如GPT-4o mini）的性能。
使用Stored Completions生成真实世界任务的数据集，将大型模型（如GPT-4o）的输出作为微调的基准数据。
使用生成的数据集微调较小的模型（如GPT-4o mini），并通过Evals不断测试其性能。

模型蒸馏定价与可用性：

Model Distillation（模型蒸馏）功能现已向所有开发者开放，支持所有OpenAI模型。开发者每天可以获得2百万个免费训练令牌用于GPT-4o mini，直到10月31日。此外，存储完成是免费的，而Evals在2024年底之前，每周最多可运行7次免费的评估，条件是开发者选择将其评估共享给OpenAI以改进未来的模型。

6. Vision Fine-tuning（视觉微调）

OpenAI宣布在其微调API中添加了对视觉微调的支持，开发者现在可以使用图像和文本微调GPT-4o。这一功能为图像理解任务提供了更强大的定制能力，适用于增强视觉搜索、改进自动驾驶的物体检测、或更精确的医学图像分析等应用。

主要特点：

图像和文本结合微调：开发者可以通过上传图像数据集来增强GPT-4o的视觉处理能力，并且只需100张图像即可实现显著性能提升。随着图像和文本数据量的增加，性能将进一步提升。
真实世界应用：通过与合作伙伴的测试，GPT-4o在改进道路图像检测、自动化企业流程以及优化网站设计等领域表现出色。例如，Grab 使用视觉微调改进了道路标志定位准确性，Automat 提高了桌面机器人在识别UI元素时的成功率，Coframe 则通过视觉微调提升了网站设计的一致性。

视觉微调定价与可用性：

视觉微调现已向所有付费开发者开放，并支持最新的GPT-4o模型（gpt-4o-2024-08-06）。OpenAI提供了免费的视觉微调训练令牌，2024年10月31日前每天最多100万免费令牌。之后，微调训练将按每百万tokens 25美元收费，推理过程则按每百万输入tokens 3.75美元、输出tokens 15美元计费。

7. 扩大o1模型API的使用权限

OpenAI宣布扩大o1模型API的使用权限，允许账号使用级别第3层（usage tier 3）的开发者访问，并提升了调用速率限制，使其与GPT-4o的速率限制相同，以满足生产级别的应用开发。

第 5 层：o1-preview每分钟10,000个请求，o1-mini每分钟30,000个请求。
第 4 层：o1-preview和o1-mini均为每分钟10,000个请求。
第 3 层：o1-preview和o1-mini均为每分钟5,000个请求。

精选推荐

都读到这里了，点个赞鼓励一下吧，小手一赞，年薪百万！😊👍👍👍。关注我，AI之路不迷路，原创技术文章第一时间推送🤖。

本文标签：将于实时语音本周用户

版权声明：本文标题：ChatGPT实时语音将于本周向免费用户推出：OpenAI DevDay 2024详细解读内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1728584059h1252850.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

ChatGPT实时语音将于本周向免费用户推出：OpenAI DevDay 2024详细解读

1. ChatGPT实时语音将于本周向免费用户推出

2. Realtime API

主要特点：

3. 在Playground中自动生成Prompt

4. Prompt Caching（提示缓存）

主要特点：

5. Model Distillation（模型蒸馏）

模型蒸馏的主要功能：

模型蒸馏工作流程：

模型蒸馏定价与可用性：

6. Vision Fine-tuning（视觉微调）

主要特点：

视觉微调定价与可用性：

7. 扩大o1模型API的使用权限

精选推荐

更多相关文章

Windows系统创建SFTP用户

Win10 9月更新补丁KB5043064发布：21H222H2用户不容错过！

迁移Windows 7 的用户文件夹

win10计算机切换用户,win10账户切换,详细教您win10怎么切换账户

Win10用户账户被锁定了怎么办？

忘记oracle数据库的用户和口令怎么办？正文有源代码

微信扫描打开app下载提示用户打开浏览器进行下载

【C盘瘦身】如何清理Wechat Files，经常使用电脑微信用户必知的常识！

win7更新_Win7用户福音：微软集成更新的新版Windows 7镜像泄露

“飞鸽传书”无法显示局域网用户问题的解决办法

部分阉割版Win7无法正常使用TTS语音的解决办法

想天浏览器：用户脚本使用指南

计算机中的标准用户不见了,Win7系统计算机管理本地用户和组不见了怎么找回...

windows7中把整个用户目录移动到其它分区中的方法

Windows用户也能使用桌面版ChatGPT了！

Windows 自动下载更新前通知用户

ChatGPT高级语音助手正式上线！OpenAI：50多种语言、9种声线可选

windows创建隐藏用户及后门

win7家庭版(home)下administrator用户如何开启？

【OpenAI】震惊！ChatGPT Pro月费200美元，硬核用户的福音还是高价陷阱？

发表评论

推荐文章

Word处理控件Aspose.Words功能演示：在 C# 中将内容从 Word 文档复制到另一个文档

百度音乐api接口及应用

Windows 7及Windows 2008Server中内置防火墙的ICMP策略设定

CLion2024安装包（亲测可用）

Windows 7安装后anaconda 命令行jupyter lab 出现404页面

热门文章

tos win10打开ip_SolidWorks常见问题精选100问：2SolidWorks双击模型无法直接打开

笔记本电脑系统Win10重装教程

图解 ARP 协议

OTN映射规律

联想集团重新洗牌数据中心管理业务

2023基于微信小程序的手机在线商城(SSM+mysql)

HTTPS协议基础知识

【Ybt OJ】[基础算法 第5章] 广度搜索 [后半章]

嵌入式linux开发平台构建过程,构建嵌入式linux开发平台.ppt

命令行中如何关闭代理服务器

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

如何将必应（Bing）的背景图片设定成 Windows 7 的主题

Windows 7 IIS (HTTP Error 500.21 - Internal Server Error)解决

Windows 7中使用HomeGroup需要打开的端口

GRUB 2：恢复被Windows 7覆盖的Ubuntu 9.10

win7下cuda8.0安装跑gpu版tensorflow

【Ybt OJ】[基础算法第5章] 广度搜索 [后半章]