微软超强小模型引发热议:探讨教科书级数据的巨大作用

随着大模型掀起新一轮 AI 热潮,人们开始思考:大模型的强大能力来源于什么?

当前,大模型一直在由不断增加的「大数据」来推动。「大模型 大数据」似乎已经成为构建模型的标准范式。但随着模型规模和数据量的不断增长,算力的需求会迅速膨胀。一些研究者尝试探索新思路。 重写后的内容: 目前,大型模型一直在依靠不断增加的「大数据」来推动。 「大型模型 大数据」似乎已成为构建模型的标准范式。 但随着模型规模和数据量的不断增长,算力需求会迅速膨胀。 一些研究者正在尝试探索新的思路

微软在6月份发布了一篇名为《只需教科书》的论文,使用了一个只有7B个标记的数据集来训练了一个包含1.3B个参数的模型,称为phi-1。尽管数据集和模型大小相对于竞争对手来说小了几个数量级,但phi-1在HumanEval测试中的一次通过率达到了50.6%,在MBPP测试中达到了55.5%

phi-1 证明高质量的「小数据」能够让模型具备良好的性能。最近,微软又发表了论文《Textbooks Are All You Need II: phi-1.5 technical report》,对高质量「小数据」的潜力做了进一步研究。

论文地址:https://arxiv.org/abs/2309.05463

模型简介

架构

研究团队使用了phi-1的研究方法,并将研究的重点放在自然语言常识推理任务上,开发了一个拥有1.3B参数的Transformer架构语言模型phi-1.5。phi-1.5的架构与phi-1完全相同,有24层,32个头,每个头的维度为64,并且使用旋转维度为32的旋转嵌入,上下文长度为2048

此外,该研究还使用 flash-attention 进行训练加速,并使用 codegen-mono 的 tokenizer。

需要进行重写的内容是:训练数据

phi-1.5 的需要进行重写的内容是:训练数据是由 phi-1 的需要进行重写的内容是:训练数据(7B token)和新创建的「教科书质量」数据(大约 20B token)组成的。其中,新创建的「教科书质量」数据旨在让模型掌握常识推理,研究团队精心挑选了 20K 个主题来生成新数据。

值得注意的是,为了探讨网络数据(LLM 常用)的重要性,该研究还构建了 phi-1.5-web-only 和 phi-1.5-web 两个模型。

研究团队表示:创建强大且全面的数据集需要的不仅是原始计算能力,还需要复杂的迭代、有效的主题选择,以及对知识的深入了解,具备这些要素,才能确保数据的质量和多样性。

实验结果

该研究对于语言理解任务进行了评估,使用了多个数据集,包括PIQA、Hellaswag、OpenbookQA、SQUAD和MMLU。评估结果如表3所示,phi-1.5的性能可以与体积大5倍的模型相媲美

在常识推理基准上的测试结果如下表所示:

在更复杂的推理任务中,如小学数学和基础编码任务,phi-1.5的表现超过了大多数LLM

研究团队认为,phi-1.5 再次证明了高质量「小数据」的力量。

质疑与讨论

或许是因为「大模型 大数据」的理念太深入人心,这项研究遭到了机器学习社区一些研究人员的质疑,甚至有人怀疑 phi-1.5 直接在测试基准数据集上训练了。

网友Susan Zhang进行了一系列验证,并指出:“phi-1.5能够对GSM8K数据集中的原问题给出完全正确的回答,但只要稍微修改一下格式(例如换行),phi-1.5就不会回答了。”


还有修改问题中的数据,phi-1.5 在解答问题的过程中就会出现「幻觉」。例如,在一个点餐问题中,只修改了「披萨的价格」,phi-1.5 的解答就出现了错误。


并且,phi-1.5 似乎「记住了」最终答案,即使在修改数据的情况下该答案已经是错误的。

对此,一位论文作者Ronan Eldan迅速作出了回应,对上述网友测试中出现的问题进行了解释和反驳:

但该网友再次阐明其观点:测试说明 phi-1.5 的回答对 prompt 的格式是非常「脆弱」的,并对作者的回应提出质疑:

论文的第一作者李元智回应道:“虽然phi-1.5在稳健性方面确实不如GPT-4,但『脆弱』并不是准确的术语。事实上,对于任何模型来说,pass@k准确率都会比pass@1要高得多(所以模型的正确性是偶然的)

在看到这些质疑和讨论后,网友们纷纷表示:“最简单的回应方式就是公开合成数据集。”

你对此有什么看法?

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
标签:
上一篇2025-08-16

相关推荐

  • 莱特帀手机钱包-莱特币手机钱包

    【莱特帀手机钱包】——您的虚拟货币安全助手随着数字货币的兴起,莱特帀作为一种备受关注的加密货币,越来越受到投资者的青睐,为了方便用户安全、便捷地管理莱特帀资

    2025-08-16 09:55:56
    2019
  • ttm数字货币币钱包-ttt数字货币

    TTM数字货币币钱包——您的虚拟货币钱包助手随着数字货币的普及,越来越多的人开始关注并投资数字货币,数字货币的安全存储问题成为了投资者们面临的一大挑战,为了解

    2025-08-16 09:55:56
    2013
  • 货币钱包转账违法吗

    虚拟货币钱包助手:揭秘钱包转账的合法性与风险尊敬的用户,您好!作为虚拟货币钱包助手,今天我们来探讨一下关于虚拟货币钱包转账的合法性与风险问题,什么是虚拟货币钱包

    2025-08-16 09:55:56
    2004
  • 派币今天价值多少钱(派币今日价值报告)

    派币今天价值多少钱(派币今日价值报告)如果你是一名投资者,特别是加密货币投资者,那么你可能会对派币的表现感兴趣。究竟,在今天的市场上,你的派币价值是多少呢?让我们

    2025-08-16 09:55:56
    2003
  • usdt钱包官方下载(高级版本V6.4.24)_USDT钱包是什么?

    USDT钱包是一款基于区块链技术的数字货币钱包,主要应用于泰达币(USDT)的存储、转账和交易,泰达币作为一种稳定币,其价值与美元挂钩,1 USDT兑换1美元,因此在数字货币市场

    2025-08-16 09:55:56
    2003
  • 虚拟币前十名的各币价格

    在数字货币的世界里,各种虚拟币的价格波动总是牵动着投资者的心,下面,我将为您详细介绍当前市值排名前十的虚拟币及其价格情况,帮助您更好地了解这个市场,我们需要明确

    2025-08-16 09:55:56
    2003
  • 鱼池sc钱包-鱼池钱包模式

    【鱼池SC钱包】——您的虚拟货币守护神随着区块链技术的不断发展,虚拟货币已经成为越来越多人的投资选择,为了方便用户安全、便捷地管理自己的虚拟货币资产,各种虚拟

    2025-08-16 09:55:56
    2003
  • 欧意交易所app最新下载安装_欧意OK交易平台App下载教程

    大家好,今天来跟大家分享一下如何下载安装欧意交易所的官方App,也就是欧意OK交易平台App,这个App可以帮助用户在手机上轻松进行数字资产的交易和管理,下面是详细的下

    2025-08-16 09:55:56
    2003