首页 时尚 演艺 游戏 八卦 音乐 影视 活动 热点 快讯 聚焦 综合 资讯
当前位置:首页 > 时尚 > 正文

每日简讯:只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型

2023-06-13 01:21:08    来源:互联网

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。


【资料图】

转载自 | 夕小瑶科技说

作者 | Python

自从推出以来,ChatGPT这款智能高效的人机对话平台迅速风靡全球。人们开始广泛尝试使用ChatGPT来解决各种问题,无论是医学检测报告的解释,还是公众号文章的取名,甚至是论文修改润色和rebuttal撰写等,ChatGPT等大型模型都活跃其中。其强大的语言生成和理解能力为人们提供了全新的工具和资源,使得各种任务的处理更加高效和便捷。

同时,许多自然语言处理领域的研究人员也感到困惑和苦恼。他们觉得传统的NLP研究方向,如问答、对话、翻译、信息抽取、文本语义与推理、知识图谱等已经失去了原本的意义。因为大型模型的出现,仅仅通过增加模型的规模和参数量,就能在自然语言处理领域中取得惊人的成就,成为解决一些任务的银弹。

诚然,大模型的高计算量必然会抬高自然语言处理的门槛。但就如同CNN/LSTM之于SVM,BERT之于CNN/LSTM一样,是人工智能领域发展的必然趋势。然而,另一方面,大模型真的是多任务通吃么?针对特定任务的模型就没有价值了么?近期的一些研究工作给出的证据表明,大模型并非一劳永逸的解法,像BERT在下游任务上做的各种精调和网络结构设计一样,大模型也需要根据任务特点做调整。

大模型的能力可能被高估

大模型虽然在很多任务中表现很好,但部分超绝的表现可能只是源于其训练数据与任务数据有所重叠造成的数据泄露。

比如[1]分析Codex(ChatGPT的前身之一),得到了如下表的结果。对于一道HackerRank上的编程题,如果把任务描述,或任务目标去掉之后,Codex依然可以取得很好的效果,然而如果仅仅替换任务目标,效果就会差很多。这表明Codex的效果可能依赖于对训练语料的记忆。

这一点,我们自己试用ChatGPT时也能很容易验证。比如直接问一道leetcode题目的解法,只给题号,ChatGPT也知道题目内容。

最近的一些研究表明,包括中文高考题[2],较难的代码生成在内[3],都难以被ChatGPT、GPT-4解决。

下图为ChatGPT在最近13年全国卷上,各科主/客观题的均分(每科归一化)。可以看到,在主观题,特别是语文和英语以外的科目,ChatGPT的表现并不理想。

任务特定的训练/精调方式依然有效

就如同BERT在做QA任务时可以用NLI和SQuAD做中间预训练一样。根据任务特点,对大模型做调整,以降低其泛用性为代价,提升某一方面的能力,也是可行的。

例如新加坡国立大学的一篇文章[4]提出,基于7B的LLaMA,用LoRA+24GB显存,结合一个人造数据集精调,就可以在BIG-bench算数任务上取得和GPT-4相当的表现。

类似地,在7个写作辅助任务上,Writing-Alpaca-7B[5]经过特定的指令精调,也可以取得超越ChatGPT的表现。

浙江大学提出[6],以Galactica-1.3b为基础,针对自然语言推断(NLI)相关的5个任务,从P3中筛选0.5%的指令精调数据,就可以取得比用全部数据精调高2%的平均表现。

任务特定的prompt方法也有价值

就如同BERT在预训练的基础上结合各种网络结构一样,根据任务特点,在大模型的基础上采取不同的prompt方案,也能取得一定的提升。

今年5月港中文和哈工深的一篇文章[7]提出elicit CoT prompt,在对话生成任务上用一组辅助的prompt让大模型生成一些与用户的personality, emotions, psychology相关的内容,进而辅助对话生成,提升helpfulness等主观指标。

清华大学和UIUC[8]提出交互式地结合外部工具,可以让ChatGPT更好地解决数学任务。

谷歌和普林斯顿提出[9],针对需要探索或初始决策很重要的任务,设计Tree of Thoughts以取代CoT,在24点、创意写作、crosswords等任务上取得了明显的提升。

南京大学提出头脑风暴法[10],在CoT的基础上,通过一个过生成+排序筛选+生成的过程,在APPS和CodeContests上的复杂编程题中取得明显提升。

西湖大学和港中文提出Chain-of-Symbol方法[11],在给定一个文字表述的和地理位置信息相关的内容,生成回复的任务中,用简练的符号而非自然语言在CoT中阐述位置关系,相较ChatGPT与InstructGPT取得提升。

浙江大学与香侬科技针对文本分类任务,提出了更好的prompt: Clue AndReasoning Prompting[12] (CARP,下图下半部分)。

浙江大学和阿里提出,通过反刍式思考[13],反思生成内容,以提高大模型的推理能力。

阿里达摩院提出通过可执行的代码[14]来解锁InstructGPT与GPT-4回答时序推理相关问题的能力。

结束语

从上述近期工作可以看出,当前大模型的能力可能被高估,其解决部分任务的能力可能源于训练数据与任务数据有所重叠。在大模型年代,针对任务特点,利用LoRA等低资源手段,可以在单机单卡到单机多卡的配置范围内,对十几亿到几十亿参数的大模型做指令调整,取得超越千亿大模型的表现。针对特定任务设计prompt方法,也可以取得明显的提升。

因此,单一的大而全,可能也并非是解决一切问题的银弹方法。NLPer们不必担心一个或几个大模型把所有问题都解决了而导致失业。任务特定的设计依然是有价值的。即使计算量提升,但如果仅需几十GB显存的单机多卡,国内一流高校的实验室也能够负担得起计算花销的。

之前听有一个老师说得特别好,谷歌搜索早就这么强了,也没听说做IR的都失业呀。作为一个商业产品,谷歌搜索/ChatGPT尽量地大而全地满足所有用户的需求,但在小而精的角度,一定有其尚未解决的问题。我们学术界就是需要发现这些问题,并提出解决方案,从而让工业界有机会将其整合到现有的商业产品中去,(让谷歌搜索/ChatGPT等)取得进一步的提升。

所以,不要过度迷恋大模型,认真观察其缺点,提出改进方案,自然语言处理还是有前途的。

参考资料

[1] Codex Hacks HackerRank: Memorization Issues and a Framework for Code Synthesis Evaluation, https://arxiv.org/pdf/2212.02684.pdf

[2] Evaluating the Performance of Large Language Models on GAOKAO Benchmark, https://arxiv.org/pdf/2305.12474.pdf

[3] Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation, https://arxiv.org/pdf/2305.01210.pdf

[4] Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks, https://arxiv.org/pdf/2305.14201.pdf

[5] Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A Preliminary Study on Writing Assistance, https://arxiv.org/pdf/2305.13225.pdf

[6] MAYBE ONLY 0.5% DATA IS NEEDED: A PRELIMINARY EXPLORATION OF LOW TRAINING DATA INSTRUCTION TUNING, https://arxiv.org/pdf/2305.09246.pdf

[7] Chain-of-thought prompting for responding to in-depth dialogue questions with LLM, https://arxiv.org/pdf/2305.11792.pdf

[8] CREATOR: Disentangling Abstract and Concrete Reasonings of Large Language Models through Tool Creation, https://arxiv.org/pdf/2305.14318.pdf

[9] Tree of Thoughts: Deliberate Problem Solving with Large Language Models, https://arxiv.org/pdf/2305.10601.pdf

[10] Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation, https://arxiv.org/pdf/2305.10679.pdf

[11] Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models, https://arxiv.org/pdf/2305.10276.pdf

[12] Text Classification via Large Language Models, https://arxiv.org/pdf/2305.08377.pdf

[13] Knowledge Rumination for Pre-trained Language Models, https://arxiv.org/pdf/2305.08732.pdf

[14] Unlocking Temporal Question Answering for Large Language Models Using Code Execution, https://arxiv.org/pdf/2305.15014.pdf

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向

(如:小张-哈工大-对话系统)

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

猜您喜欢
  • 每日简讯:只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型
    每日简讯:只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型
    MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外N 2023-06-13
  • 成都无抵押小额贷款 今日最新
    成都无抵押小额贷款 今日最新
    本文内容是由小编为大家搜集关于成都无抵押小额贷款,以及的资料,整理 2023-06-13
  • 世界快播:12590901开头的是什么电话号码_12 5
    世界快播:12590901开头的是什么电话号码_12 5
    1、12 5是指屏幕的对角线的长度,当然屏幕有边框,边框也算。2、所以边 2023-06-13
  • excel表格打平方米怎么打_excel表格平方米怎么打 天天视讯
    excel表格打平方米怎么打_excel表格平方米怎么打 天天视讯
    1、1 百度一下,平方,就可以找到这个符号²2 在表格中,按下ALT键不放的 2023-06-13
  • 月季枝枯病_对于月季枝枯病简单介绍
    月季枝枯病_对于月季枝枯病简单介绍
    1、月季枝枯病又名月季普通茎溃疡病或梢枯病等。2、是由蔷薇小壳霉引起 2023-06-13
  • 湘乡市起凤学校举行第二届课后服务成果展演 焦点速读
    湘乡市起凤学校举行第二届课后服务成果展演 焦点速读
    新湖南客户端6月12日讯(通讯员张景丁馥荷)6月8日至9日,湘乡市起凤学 2023-06-12
  • 《刺客信条:幻景》开发日志,深度回归刺客本质!_新资讯
    《刺客信条:幻景》开发日志,深度回归刺客本质!_新资讯
    育碧官方公布了《刺客信条:幻景》开发日志,深度回归刺客本质!该作预 2023-06-12
  • ST金鸿收到深交所关注函
    ST金鸿收到深交所关注函
    南都讯6月12日消息,ST金鸿收到深交所关注函。关注函要求ST金鸿说明截 2023-06-12
  • 双开门尺寸多少算吉利_双开门尺寸|焦点关注
    双开门尺寸多少算吉利_双开门尺寸|焦点关注
    1、大门的高度不低于2 2米,2 2米、2 4米比较常用。2、宽度一般有以下 2023-06-12
  • 世界观热点:银川公安推动社会治安防控体系提档升级
    世界观热点:银川公安推动社会治安防控体系提档升级
    近日,银川市被命名为首批全国社会治安防控体系建设示范城市。平安,已 2023-06-12
  • 热点聚焦:涉农贷款增长创新高;童学锋任建信消金董事长,李建峰任总裁;海南批量注销115家小贷公司丨21消费金融参考
    热点聚焦:涉农贷款增长创新高;童学锋任建信消金董事长,李建峰任总裁;海南批量注销115家小贷公司丨21消费金融参考
    21世纪资管研究院吴霜,实习生于兴子综合整理【监管与行业政策】1、广 2023-06-12
  • 深圳市福田区对个人消费者购买新车补贴5000-15000元:总额控制,先到先得
    深圳市福田区对个人消费者购买新车补贴5000-15000元:总额控制,先到先得
    App6月12日消息,据深圳发布消息,2023年6月16日起,个人消费者在纳入 2023-06-12
  • 珠宝概念股名单有哪些(2023/6/12)
    珠宝概念股名单有哪些(2023/6/12)
    珠宝概念股名单有哪些(2023 6 12),珠宝概念股名单有哪些(2023 6 12 2023-06-12
  • 女人为何一往情深_为什么女人总是容易一往情深
    女人为何一往情深_为什么女人总是容易一往情深
    1、女人更希望家庭和睦,所以一旦结婚,总是如痴如醉。2、从不轻易出轨 2023-06-12
  • 天天亮点!水中古董?女子花15元买到水龄16500年矿泉水 专家回应
    天天亮点!水中古董?女子花15元买到水龄16500年矿泉水 专家回应
    水中古董?女子花15元买到水龄16500年矿泉水专家回应 2023-06-12
  • 时讯:无损检测仪器信息化_关于无损检测仪器信息化介绍
    时讯:无损检测仪器信息化_关于无损检测仪器信息化介绍
    1、无损检测仪器行业随着业务的不断扩大和客户的增多,销售人员在管理 2023-06-12
  • 新成员单位签约,智库成立……首届大健康产业园共同体成员大会精彩纷呈! 当前消息
    新成员单位签约,智库成立……首届大健康产业园共同体成员大会精彩纷呈! 当前消息
    6月10日,首届大健康产业园共同体成员大会在秦皇岛北戴河新区召开。本 2023-06-12
  • 北京公积金电话查询号码是多少_北京公积金电话-全球球精选
    北京公积金电话查询号码是多少_北京公积金电话-全球球精选
    1、分中心及管理部名称:北京住房公积金管理中心朝阳管理部分中心及管 2023-06-12
  • 新华时论|以“一流环境”造就“二期现象”|天天观察
    新华时论|以“一流环境”造就“二期现象”|天天观察
    英联科技智能易开盖项目二期已于今年初部分投产;传艺钠电新材料(电解 2023-06-12
  • 宁波银行李仁杰董事任职资格获核准
    宁波银行李仁杰董事任职资格获核准
    券中社6月12日讯,券中社6月12日消息,近日,宁波银行收到《宁波银保监 2023-06-12
  • Copyright © 2008-2015 当代娱乐网版权所有   Inc. All Rights Reserved.    联系邮箱:55 16 53 8 @qq.com  京ICP备2021034106号-22