OpenAI于2022年11月30日发布ChatGPT-3.5,于2023年3月14日发布GPT-4。2023年3月16日,百度也发布自己的大语言模型——文心一言。并且,百度是中国首个公布自己大语言模型的科技大厂。只是,文心一言在发布后的大约两个月里,可能有超过半数的互联网用户都会对文心一言给出负面的评价——与ChatGPT-3.5相比有着很大的差距。
但换个角度来看,百度将尚不成熟的文心一言开放给广大用户使用,这份勇气和魄力还是值得认可,这是自信的举动——承认存在不足,相信会变得越来越好。
恐怕让很多人意想不到的是,大概就是在最近半个月,百度文心一言好似有了质的飞跃——“智商”突然提升不少,开始变得“聪明”起来。
首先,与微软Bing Chat、谷歌Bard类似,文心一言也能够通过自行搜索互联网上的信息,并向用户回答各种各样的问题。这表明文心一言确实具有了一定的语言理解能力和生成能力,以及一些基本的知识和逻辑推理能力,已经可以在一些场景中为用户提供实实在在的帮助。此外,要想文心一言给出尽可能好的答案,用户在提问时要尽可能准确和完整。
比如,在这一轮对话中,向文心一言提了三个问题。
1,今天星期几?
2,上海未来几天的天气怎样?
3,我目前在四川成都,打算去上海玩几天,你可以帮忙尽可能简单地规划一个旅游路线吗?
文心一言给出的回答算是较为令人满意的。
又比如,在这一轮对话中,向文心一言提了四个问题。
1,搜索关于蔚来汽车降价的新闻,并告诉蔚来为什么要降价?
2,2023年1~5月,蔚来汽车每个月的汽车交付量是多少?
3,蔚来汽车创始人李斌是否说过,蔚来汽车永不降价?
4,能否针对蔚来、小鹏、理想在2023年5月的交付量做一个简单的对比?
同样地,文心一言给出了较为令人满意的答案。
其次,文心一言在中英文互译方面的能力比先前有了提升,具备一定的跨语言转换能力,能够理解两种语言间的语法、词汇和语义差异,能够生成比较流畅和准确的目标语言文本。另外,根据相关统计,在全世界,懂得使用英文的人不低于15亿,大约有11亿人使用中文(这里主要指普通话)。对于很多人来说,有必要掌握中文和英文这两种语言。随着文心一言在中英互译方面的能力持续提升,既可以成为语言学习的智能助手,又可以帮助翻译各种文本(提升效率和质量)。
在这一轮对话中,向文心一言提出四个问题。
1,将后面的中文翻译为日文:我今天心情不太好,想要睡觉。
2,那就将它翻译为英文吧。
3,将后面的英文翻译通顺连贯的中文:The launch is part of SpaceX's Transporter-8 mission which is "a dedicated smallsat rideshare mission", according to SpaceX's website. The rocket will carry 72 payloads on this flight, including CubeSats, MicroSats, a re-entry capsule and orbital transfer vehicles carrying spacecraft to be deployed at a later time.
4,beautiful girl与pretty girl有什么区别?
文心一言对第1个和第2个问题做出的回应,表明它能够理解上下文,这很好!对第3个问题,文心一言能够将英文较好地翻译为中文。对第4个问题,文心一言给出的回答也还能接受。
第三,只要不是太难,文心一言就能够写出正常运行的程序代码——具有一定的编程语言理解能力,能够根据用户的自然语言描述或已有的程序代码片段生成符合语法、逻辑和功能的程序代码。可以预见的是,文心一言编写代码的能力越强,将可以在很多场景中为开发者提供便利,比如代码生成、代码补全、代码翻译、代码注释等。
在这轮对话中,就只向文心一言提了两个非常简单的Python编程问题。
1,用Python语言编写一个足球的视频动画。
2,用简单的Python语言写出九九乘法口诀表。
有兴趣的网友可以自己去尝试和体验(根据自己的想法设定代码问题或任务的难易程度),包括Python、Java、C/C++、JavaScript等多种编程语言。
第四,文心一言并不能像人类一样,做对超出一定难度的逻辑思维题,以及诸如数学、物理、化学、生物等理工科题目。这意味着,除了语言理解能力和生成能力之外,文心一言还需要提升包括计算和泛化等能力。在这里,所谓计算能力,指的是进行数值计算、符号运算、逻辑推理等,得出正确的结果,并且能够处理不确定性和异常情况,而泛化能力,则是需要能够应对不同的题目和领域,不仅局限于训练数据中的知识和方法,还要能够学习和利用新的知识和方法,解决更复杂和更抽象的问题。
在这轮对话中,向文心一言提了两个问题,并且都是经过了精心设计——在互联网上找不到现成的答案。
1,小明想要将一个正方形纸片剪成两个互不相同的矩形纸片,使得这两个矩形的周长之和最小。如果正方形的边长为8厘米,那么他应该怎样剪才能实现这个目标?
2,某校的学生进行了一次数学测验,总分为100分,满分是10道题,每题10分。测验结束后,教师发现有一名学生得分超过90分,但没有得满分。根据学校的评分制度,学生得分不足10分的情况下将不予评分,只评分整数部分。请问,该学生得到的具体分数可能是多少?
文心一言给出的回答显然是错的。作为对比,科大讯飞的星火认知,OpenAI的ChatGPT-3.5也没有好到哪里去。
星火认知
ChatGPT-3.5
不妨看看微软Bing Chat(GPT-4驱动)给出的答案。对于第1个问题,Bing Chat表示,把正方形沿着对角线剪开,得到两个等腰直角三角形,这样两个矩形(等腰直角三角形)的周长之和最小。Bing Chat甚至在推理过程中还给出了相应的证明。需要注意的是,Bing Chat在推导和计算过程中同样存在错误的地方。对于第2个问题,Bing Chat表示,没有一个确定的答案,因为不同的评分制度可能会导致不同的结果。并且,Bing Chat给出了其中一种可能的评分制度,供用户参考。
至于文心一言在其他方面的能力和表现,总体上给人的感觉还行。例如单纯地聊天、写小说、写古诗、写新闻,等等。就不再一一赘述。
结语:目前的文心一言跟先前的版本相比,几乎可以认为是脱胎换骨。同时让外界感觉到,与美国公司的的AI语言模型相比,例如ChatGPT、Bard、Claude等,中国公司开发的AI语言模型同样具有一定竞争力(不是那么差劲)。继百度的文心一言、阿里巴巴的通义之后,字节跳动和腾讯也将发布自己的AI语言模型。包括文心一言在内的一部分国产通用大语言模型,追上GPT-4的时间应该要比外界预想的更快。科技领域兴起的这一轮AI热潮。无论美国科技公司,还是中国科技公司,都深知第四次AI科技革命的重要性。即使暂时处于全球领先的GPT-4,也只是人类发展通用人工智能AGI的起点。
我经常梦到你,我也经常梦见我自己,可是很少梦到我和你在一起。
似乎等待了一百年,突然明白:即使再见面,成熟地表演,不如不见。