百度文心一言有了质的飞跃，今年内赶超GPT-4？

文心一言
6月15日

Hello码字员

百度文心一言有了质的飞跃，今年内赶超GPT-4？

OpenAI于2022年11月30日发布ChatGPT-3.5，于2023年3月14日发布GPT-4。2023年3月16日，百度也发布自己的大语言模型——文心一言。并且，百度是中国首个公布自己大语言模型的科技大厂。只是，文心一言在发布后的大约两个月里，可能有超过半数的互联网用户都会对文心一言给出负面的评价——与ChatGPT-3.5相比有着很大的差距。

但换个角度来看，百度将尚不成熟的文心一言开放给广大用户使用，这份勇气和魄力还是值得认可，这是自信的举动——承认存在不足，相信会变得越来越好。

恐怕让很多人意想不到的是，大概就是在最近半个月，百度文心一言好似有了质的飞跃——“智商”突然提升不少，开始变得“聪明”起来。

首先，与微软Bing Chat、谷歌Bard类似，文心一言也能够通过自行搜索互联网上的信息，并向用户回答各种各样的问题。这表明文心一言确实具有了一定的语言理解能力和生成能力，以及一些基本的知识和逻辑推理能力，已经可以在一些场景中为用户提供实实在在的帮助。此外，要想文心一言给出尽可能好的答案，用户在提问时要尽可能准确和完整。

比如，在这一轮对话中，向文心一言提了三个问题。

1，今天星期几？

2，上海未来几天的天气怎样？

3，我目前在四川成都，打算去上海玩几天，你可以帮忙尽可能简单地规划一个旅游路线吗？

百度文心一言有了质的飞跃，今年内赶超GPT-4？

文心一言给出的回答算是较为令人满意的。

又比如，在这一轮对话中，向文心一言提了四个问题。

1，搜索关于蔚来汽车降价的新闻，并告诉蔚来为什么要降价？

2，2023年1~5月，蔚来汽车每个月的汽车交付量是多少？

3，蔚来汽车创始人李斌是否说过，蔚来汽车永不降价？

4，能否针对蔚来、小鹏、理想在2023年5月的交付量做一个简单的对比？

百度文心一言有了质的飞跃，今年内赶超GPT-4？

同样地，文心一言给出了较为令人满意的答案。

其次，文心一言在中英文互译方面的能力比先前有了提升，具备一定的跨语言转换能力，能够理解两种语言间的语法、词汇和语义差异，能够生成比较流畅和准确的目标语言文本。另外，根据相关统计，在全世界，懂得使用英文的人不低于15亿，大约有11亿人使用中文（这里主要指普通话）。对于很多人来说，有必要掌握中文和英文这两种语言。随着文心一言在中英互译方面的能力持续提升，既可以成为语言学习的智能助手，又可以帮助翻译各种文本（提升效率和质量）。

在这一轮对话中，向文心一言提出四个问题。

1，将后面的中文翻译为日文：我今天心情不太好，想要睡觉。

2，那就将它翻译为英文吧。

3，将后面的英文翻译通顺连贯的中文：The launch is part of SpaceX's Transporter-8 mission which is "a dedicated smallsat rideshare mission", according to SpaceX's website. The rocket will carry 72 payloads on this flight, including CubeSats, MicroSats, a re-entry capsule and orbital transfer vehicles carrying spacecraft to be deployed at a later time.

4，beautiful girl与pretty girl有什么区别？

百度文心一言有了质的飞跃，今年内赶超GPT-4？

文心一言对第1个和第2个问题做出的回应，表明它能够理解上下文，这很好！对第3个问题，文心一言能够将英文较好地翻译为中文。对第4个问题，文心一言给出的回答也还能接受。

第三，只要不是太难，文心一言就能够写出正常运行的程序代码——具有一定的编程语言理解能力，能够根据用户的自然语言描述或已有的程序代码片段生成符合语法、逻辑和功能的程序代码。可以预见的是，文心一言编写代码的能力越强，将可以在很多场景中为开发者提供便利，比如代码生成、代码补全、代码翻译、代码注释等。

在这轮对话中，就只向文心一言提了两个非常简单的Python编程问题。

1，用Python语言编写一个足球的视频动画。

2，用简单的Python语言写出九九乘法口诀表。

百度文心一言有了质的飞跃，今年内赶超GPT-4？

有兴趣的网友可以自己去尝试和体验（根据自己的想法设定代码问题或任务的难易程度），包括Python、Java、C/C++、JavaScript等多种编程语言。

第四，文心一言并不能像人类一样，做对超出一定难度的逻辑思维题，以及诸如数学、物理、化学、生物等理工科题目。这意味着，除了语言理解能力和生成能力之外，文心一言还需要提升包括计算和泛化等能力。在这里，所谓计算能力，指的是进行数值计算、符号运算、逻辑推理等，得出正确的结果，并且能够处理不确定性和异常情况，而泛化能力，则是需要能够应对不同的题目和领域，不仅局限于训练数据中的知识和方法，还要能够学习和利用新的知识和方法，解决更复杂和更抽象的问题。

在这轮对话中，向文心一言提了两个问题，并且都是经过了精心设计——在互联网上找不到现成的答案。

1，小明想要将一个正方形纸片剪成两个互不相同的矩形纸片，使得这两个矩形的周长之和最小。如果正方形的边长为8厘米，那么他应该怎样剪才能实现这个目标？

2，某校的学生进行了一次数学测验，总分为100分，满分是10道题，每题10分。测验结束后，教师发现有一名学生得分超过90分，但没有得满分。根据学校的评分制度，学生得分不足10分的情况下将不予评分，只评分整数部分。请问，该学生得到的具体分数可能是多少？

百度文心一言有了质的飞跃，今年内赶超GPT-4？

文心一言给出的回答显然是错的。作为对比，科大讯飞的星火认知，OpenAI的ChatGPT-3.5也没有好到哪里去。

百度文心一言有了质的飞跃，今年内赶超GPT-4？

星火认知

百度文心一言有了质的飞跃，今年内赶超GPT-4？

ChatGPT-3.5

不妨看看微软Bing Chat（GPT-4驱动）给出的答案。对于第1个问题，Bing Chat表示，把正方形沿着对角线剪开，得到两个等腰直角三角形，这样两个矩形（等腰直角三角形）的周长之和最小。Bing Chat甚至在推理过程中还给出了相应的证明。需要注意的是，Bing Chat在推导和计算过程中同样存在错误的地方。对于第2个问题，Bing Chat表示，没有一个确定的答案，因为不同的评分制度可能会导致不同的结果。并且，Bing Chat给出了其中一种可能的评分制度，供用户参考。

百度文心一言有了质的飞跃，今年内赶超GPT-4？

百度文心一言有了质的飞跃，今年内赶超GPT-4？

至于文心一言在其他方面的能力和表现，总体上给人的感觉还行。例如单纯地聊天、写小说、写古诗、写新闻，等等。就不再一一赘述。

百度文心一言有了质的飞跃，今年内赶超GPT-4？

百度文心一言有了质的飞跃，今年内赶超GPT-4？

结语：目前的文心一言跟先前的版本相比，几乎可以认为是脱胎换骨。同时让外界感觉到，与美国公司的的AI语言模型相比，例如ChatGPT、Bard、Claude等，中国公司开发的AI语言模型同样具有一定竞争力（不是那么差劲）。继百度的文心一言、阿里巴巴的通义之后，字节跳动和腾讯也将发布自己的AI语言模型。包括文心一言在内的一部分国产通用大语言模型，追上GPT-4的时间应该要比外界预想的更快。科技领域兴起的这一轮AI热潮。无论美国科技公司，还是中国科技公司，都深知第四次AI科技革命的重要性。即使暂时处于全球领先的GPT-4，也只是人类发展通用人工智能AGI的起点。

赞一下踩一下

2 条回复 A文章作者 M管理员

更换删除

u6974541670873886 白丁lv0 上海市移动

23年12月11日

我经常梦到你，我也经常梦见我自己，可是很少梦到我和你在一起。
u4207232283638501 白丁lv0 山东省济宁市电信

23年11月14日

似乎等待了一百年，突然明白：即使再见面，成熟地表演，不如不见。

❯

解锁会员权限

个人中心

购物车

优惠劵

有新私信私信列表

搜索

客服

扫码打开当前页
唯一QQ客服
一只不能红得发紫的小红薯

返回顶部

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部