admin 管理员组

文章数量: 886992

关于“Claude和ChatGPT到底选择谁的问题”,如果是放到2个月前,我或许会毫不犹豫选择ChatGPT,不过最近Claude的一顿更新,让我一下子难以做出选择。有人说ChatGPT是理科生,在数学,逻辑推理能力更强,而说Claude是文科生,在写作方面表现更强。

可事实真的如此吗?

下面我将对Claude 和ChatGPT 两个模型的会员版进行深层次全面的对比。

作为一个Claude和ChatGPT都在使用的深度用户。在使用ChatGPT时,我特别喜欢它的Canvas功能,而在使用Claude时,我则更喜欢Artifacts功能。因此除了从模型的基础能力,我们还要看它们俩具体有哪些功能,从普通人视角,来进行比较。

Claude和ChatGPT的主要功能比较

ChatGPT的功能

  1. Canvas: ChatGPT的Canvas功能使用户能够与AI合作完成写作和编码项目,提供了内联编辑、代码调试和文档版本控制等工具。这一功能特别适合需要团队协作的环境,如共同开发软件或撰写技术文档。

  2. GPTs: 该功能允许用户创建定制的AI助理,执行网页搜索、图像制作或数据分析等任务,无需编程技能。这一功能适合客户服务、数据分析和内容创作等需要定制化AI助理的场景。

  3. AI搜索功能: ChatGPT新增的搜索功能可以结合网络搜索结果提供答案,支持网页版以及手机和桌面应用。这使得用户可以快速获得最新的学术论文和研究成果,加速研究过程。

  4. DALL·E功能: ChatGPT集成了DALL·E功能,可以根据自然语言描述来创建图像,非常适合广告设计、产品原型制作或社交媒体内容创作。

  5. 高级语音:ChatGPT的高级语音功能能够让用户和ChatGPT进行语音对话,而且就目前市面上,ChatGPT的高级语言功能最为逼真,所以不少人会拿它练英语口语等。

Claude的功能

  1. Artifacts: Claude的Artifacts功能让用户可以在对话中创建和引用如代码片段、文本文档和网站设计等大量独立的内容,同时支持实时查看、编辑和构建内容。

  2. 数据可视化: Claude的数据分析功能支持用户编写并直接运行JavaScript代码,进行复杂的数据处理和实时分析,非常适用于需要进行数据分析和可视化的场景,如市场分析、财务报告或科学研究。

  3. 可视化PDF: Claude能够查看和分析PDF中的图像、图表和图形,适用于处理少于100页的PDF文件。这一功能适合技术文档审阅、学术论文分析或法律文件审查。

  4. Computer use: 通过Claude的API,用户可以控制电脑执行搜索、数据分析和文档处理等任务,类似于一个智能个人助理,适用于自动化计算机操作的场景。

  5. LaTeX渲染: Claude能够一致地呈现数学方程式,适用于处理数学公式和科学文献,如学术论文撰写、技术报告或教育教学。

ChatGPT 和 Claude 都是功能强大的AI模型,但各有专长。ChatGPT以其多功能全面著称,它就像一个多面手,应用场景特别广泛,包括写作协作、自定义AI助手、网络搜索、图像生成和语音对话。

而Claude则专注于编码和专业写作,提供代码片段管理、数据可视化、PDF分析等功能,特别适合技术和学术领域。

如果是你,你会为了它们俩的哪个功能订阅它们呢?

基础能力对比,看谁更强

首先,我们看一下Claude和ChatGPT在国内基准数据集的得分。

由于 Claude 和 ChatGPT 等模型在评估基本能力时,通常使用国外的基准数据集。然而,中文和英文在语言结构和表达方式上存在显著差异。为更准确地评估模型在中文语境下的表现,我选择了国内权威的模型测试机构——CLUE(中文语言理解测评基准)。

时间拉回最新版Claude 3.5 sonnet发布时,CLUE中文语言理解测评基准第一时间进行了评测,评测结果如下:

中文代码:

o1-preview>Claude 3.5 Sonnet>GPT-4o

Claude 3.5 Sonnet(1022)在中文代码能力(SC-Code3)上表现不俗,总分达到84.85分,较GPT-4o-0513高1.52分,较o1-preview低4.54分。其中,在高级代码任务上表现惊艳,得分69.23分,与o1-preview打平。

复杂任务高阶推理能力:

o1-preview>GPT-4o>Claude 3.5 Sonnet

Claude 3.5 Sonnet(1022)在中文高阶推理任务上取得74.54分,接近ChatGPT-4o-latest,相较o1-preview还有较大差距(-10.73分)。其中,多步推理能力相对突出,超过了ChatGPT-4o-latest。

同时,我还准备了最新LMSYS竞技场的数据。

LMSYS竞技场

LMSYS竞技场是:由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员开发。该平台拥有超过 1,000,000 张用户投票,使用 Bradley-Terry 模型生成实时排行榜,对最佳 LLM 和 AI 聊天机器人进行排名。

刚刚截了最新关于LMSYS竞技场的数据,显示最新版的Claude 3.5 sonnet要落后于GPT 4o和o1-preview模型。

所以从数据层面表明,ChatGPT的o1模型还是要远远强于最新版的Claude 3.5 sonnet,如果你追求哪个模型强,那基本可以无脑冲ChatGPT了。

本文标签: 真实 数据 Claude ChatGpt