每日简讯：只给大模型LeetCode编号，也能解题！大模型表现好是源于对训练数据的记忆吗？请不要迷信大模型

2023-06-13 01:21:08 来源：互联网

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

【资料图】

转载自 | 夕小瑶科技说

作者 | Python

自从推出以来，ChatGPT这款智能高效的人机对话平台迅速风靡全球。人们开始广泛尝试使用ChatGPT来解决各种问题，无论是医学检测报告的解释，还是公众号文章的取名，甚至是论文修改润色和rebuttal撰写等，ChatGPT等大型模型都活跃其中。其强大的语言生成和理解能力为人们提供了全新的工具和资源，使得各种任务的处理更加高效和便捷。

同时，许多自然语言处理领域的研究人员也感到困惑和苦恼。他们觉得传统的NLP研究方向，如问答、对话、翻译、信息抽取、文本语义与推理、知识图谱等已经失去了原本的意义。因为大型模型的出现，仅仅通过增加模型的规模和参数量，就能在自然语言处理领域中取得惊人的成就，成为解决一些任务的银弹。

诚然，大模型的高计算量必然会抬高自然语言处理的门槛。但就如同CNN/LSTM之于SVM，BERT之于CNN/LSTM一样，是人工智能领域发展的必然趋势。然而，另一方面，大模型真的是多任务通吃么？针对特定任务的模型就没有价值了么？近期的一些研究工作给出的证据表明，大模型并非一劳永逸的解法，像BERT在下游任务上做的各种精调和网络结构设计一样，大模型也需要根据任务特点做调整。

大模型的能力可能被高估

大模型虽然在很多任务中表现很好，但部分超绝的表现可能只是源于其训练数据与任务数据有所重叠造成的数据泄露。

比如[1]分析Codex（ChatGPT的前身之一），得到了如下表的结果。对于一道HackerRank上的编程题，如果把任务描述，或任务目标去掉之后，Codex依然可以取得很好的效果，然而如果仅仅替换任务目标，效果就会差很多。这表明Codex的效果可能依赖于对训练语料的记忆。

这一点，我们自己试用ChatGPT时也能很容易验证。比如直接问一道leetcode题目的解法，只给题号，ChatGPT也知道题目内容。

最近的一些研究表明，包括中文高考题[2]，较难的代码生成在内[3]，都难以被ChatGPT、GPT-4解决。

下图为ChatGPT在最近13年全国卷上，各科主/客观题的均分（每科归一化）。可以看到，在主观题，特别是语文和英语以外的科目，ChatGPT的表现并不理想。

任务特定的训练/精调方式依然有效

就如同BERT在做QA任务时可以用NLI和SQuAD做中间预训练一样。根据任务特点，对大模型做调整，以降低其泛用性为代价，提升某一方面的能力，也是可行的。

例如新加坡国立大学的一篇文章[4]提出，基于7B的LLaMA，用LoRA+24GB显存，结合一个人造数据集精调，就可以在BIG-bench算数任务上取得和GPT-4相当的表现。

类似地，在7个写作辅助任务上，Writing-Alpaca-7B[5]经过特定的指令精调，也可以取得超越ChatGPT的表现。

浙江大学提出[6]，以Galactica-1.3b为基础，针对自然语言推断（NLI）相关的5个任务，从P3中筛选0.5%的指令精调数据，就可以取得比用全部数据精调高2%的平均表现。

任务特定的prompt方法也有价值

就如同BERT在预训练的基础上结合各种网络结构一样，根据任务特点，在大模型的基础上采取不同的prompt方案，也能取得一定的提升。

今年5月港中文和哈工深的一篇文章[7]提出elicit CoT prompt，在对话生成任务上用一组辅助的prompt让大模型生成一些与用户的personality, emotions, psychology相关的内容，进而辅助对话生成，提升helpfulness等主观指标。

清华大学和UIUC[8]提出交互式地结合外部工具，可以让ChatGPT更好地解决数学任务。

谷歌和普林斯顿提出[9]，针对需要探索或初始决策很重要的任务，设计Tree of Thoughts以取代CoT，在24点、创意写作、crosswords等任务上取得了明显的提升。

南京大学提出头脑风暴法[10]，在CoT的基础上，通过一个过生成+排序筛选+生成的过程，在APPS和CodeContests上的复杂编程题中取得明显提升。

西湖大学和港中文提出Chain-of-Symbol方法[11]，在给定一个文字表述的和地理位置信息相关的内容，生成回复的任务中，用简练的符号而非自然语言在CoT中阐述位置关系，相较ChatGPT与InstructGPT取得提升。

浙江大学与香侬科技针对文本分类任务，提出了更好的prompt: Clue AndReasoning Prompting[12] (CARP，下图下半部分)。

浙江大学和阿里提出，通过反刍式思考[13]，反思生成内容，以提高大模型的推理能力。

阿里达摩院提出通过可执行的代码[14]来解锁InstructGPT与GPT-4回答时序推理相关问题的能力。

结束语

从上述近期工作可以看出，当前大模型的能力可能被高估，其解决部分任务的能力可能源于训练数据与任务数据有所重叠。在大模型年代，针对任务特点，利用LoRA等低资源手段，可以在单机单卡到单机多卡的配置范围内，对十几亿到几十亿参数的大模型做指令调整，取得超越千亿大模型的表现。针对特定任务设计prompt方法，也可以取得明显的提升。

因此，单一的大而全，可能也并非是解决一切问题的银弹方法。NLPer们不必担心一个或几个大模型把所有问题都解决了而导致失业。任务特定的设计依然是有价值的。即使计算量提升，但如果仅需几十GB显存的单机多卡，国内一流高校的实验室也能够负担得起计算花销的。

之前听有一个老师说得特别好，谷歌搜索早就这么强了，也没听说做IR的都失业呀。作为一个商业产品，谷歌搜索/ChatGPT尽量地大而全地满足所有用户的需求，但在小而精的角度，一定有其尚未解决的问题。我们学术界就是需要发现这些问题，并提出解决方案，从而让工业界有机会将其整合到现有的商业产品中去，（让谷歌搜索/ChatGPT等）取得进一步的提升。

所以，不要过度迷恋大模型，认真观察其缺点，提出改进方案，自然语言处理还是有前途的。

参考资料

[1] Codex Hacks HackerRank: Memorization Issues and a Framework for Code Synthesis Evaluation, https://arxiv.org/pdf/2212.02684.pdf

[2] Evaluating the Performance of Large Language Models on GAOKAO Benchmark, https://arxiv.org/pdf/2305.12474.pdf

[3] Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation, https://arxiv.org/pdf/2305.01210.pdf

[4] Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks, https://arxiv.org/pdf/2305.14201.pdf

[5] Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A Preliminary Study on Writing Assistance, https://arxiv.org/pdf/2305.13225.pdf

[6] MAYBE ONLY 0.5% DATA IS NEEDED: A PRELIMINARY EXPLORATION OF LOW TRAINING DATA INSTRUCTION TUNING, https://arxiv.org/pdf/2305.09246.pdf

[7] Chain-of-thought prompting for responding to in-depth dialogue questions with LLM, https://arxiv.org/pdf/2305.11792.pdf

[8] CREATOR: Disentangling Abstract and Concrete Reasonings of Large Language Models through Tool Creation, https://arxiv.org/pdf/2305.14318.pdf

[9] Tree of Thoughts: Deliberate Problem Solving with Large Language Models, https://arxiv.org/pdf/2305.10601.pdf

[10] Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation, https://arxiv.org/pdf/2305.10679.pdf

[11] Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models, https://arxiv.org/pdf/2305.10276.pdf

[12] Text Classification via Large Language Models, https://arxiv.org/pdf/2305.08377.pdf

[13] Knowledge Rumination for Pre-trained Language Models, https://arxiv.org/pdf/2305.08732.pdf

[14] Unlocking Temporal Question Answering for Large Language Models Using Code Execution, https://arxiv.org/pdf/2305.15014.pdf

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向

（如：小张-哈工大-对话系统）

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

上一篇：湘乡市起凤学校举行第二届课后服务成果展演焦点速读
下一篇：最后一页

猜您喜欢

时尚

1 每日简讯：只给大模型LeetCode编号，也能解题！大模型表现好是源于对训练数据的记忆吗？请不要迷信大模型

2 湘乡市起凤学校举行第二届课后服务成果展演焦点速读

3 深圳市福田区对个人消费者购买新车补贴5000-15000元：总额控制，先到先得

4 新成员单位签约，智库成立……首届大健康产业园共同体成员大会精彩纷呈！当前消息

5 热搜第一！绍兴一男子举报妻子被上司带去酒局遭灌酒，官方通报来了

6 微软《极限竞速 8：赛车运动》国区 298~398元，10月10日正式发售_当前热闻

7 世界今头条！Earthless 是来自 Homeworld 3 的创造者的全新科幻甲板构建器

8 天天观焦点：《逆水寒》手游碎梦内功搭配攻略

9 实现优质资源共享共惠！这个城乡教共体要建设一支共学共进的教师团队今日快讯

10 儿童退热的推拿手法

演艺

成都无抵押小额贷款今日最新

ST金鸿收到深交所关注函

珠宝概念股名单有哪些（2023/6/12）

北京公积金电话查询号码是多少_北京公积金电话-全球球精选

储蓄国债跌破3%，什么都在涨价，利息却越来越低，手里闲钱往哪放世界报资讯

游戏

1. 《刺客信条：幻景》开发日志，深度回归刺客本质！_新资讯

2. GDDR6价格不断下跌 8GB配置方案已降至27美元

3. 星空发布会《星空》全新游戏画面与信息公开世界今头条

4. 悬疑像素点击游戏《Three Minutes to Eight》（八点前的三分钟）将于今年推出

5. 《变形金刚7》内地票房突破2亿元续作想请吴京加盟

6. Xbox老大菲尔·斯宾塞：有信心最终完成对动视暴雪收购_当前最新

7. 《博德之门3》发布开发者幕后短片 8月31日发售

8. 全球快看：RTS《战锤西格玛时代：毁灭之国》实机演示发布 7月7日开放测试

9. 《守望先锋2》“入侵”预告大量全新内容8月10日上线当前看点

10. 仿洛克人肉鸽动作《30XX》新宣传片 8月9日正式发售-快报

每日简讯：只给大模型LeetCode编号，也能解题！大模型表现好是源于对训练数据的记忆吗？请不要迷信大模型

大模型的能力可能被高估

任务特定的训练/精调方式依然有效

任务特定的prompt方法也有价值

结束语

关于我们

每日简讯：只给大模型LeetCode编号，也能解题！大模型表现好是源于对训练数据的记忆吗？请不要迷信大模型

成都无抵押小额贷款今日最新

世界快播：12590901开头的是什么电话号码_12 5

excel表格打平方米怎么打_excel表格平方米怎么打天天视讯

月季枝枯病_对于月季枝枯病简单介绍

湘乡市起凤学校举行第二届课后服务成果展演焦点速读

《刺客信条：幻景》开发日志，深度回归刺客本质！_新资讯

ST金鸿收到深交所关注函

双开门尺寸多少算吉利_双开门尺寸|焦点关注

世界观热点：银川公安推动社会治安防控体系提档升级

热点聚焦：涉农贷款增长创新高；童学锋任建信消金董事长，李建峰任总裁；海南批量注销115家小贷公司丨21消费金融参考

深圳市福田区对个人消费者购买新车补贴5000-15000元：总额控制，先到先得

珠宝概念股名单有哪些（2023/6/12）

女人为何一往情深_为什么女人总是容易一往情深

天天亮点！水中古董？女子花15元买到水龄16500年矿泉水专家回应

时讯：无损检测仪器信息化_关于无损检测仪器信息化介绍

新成员单位签约，智库成立……首届大健康产业园共同体成员大会精彩纷呈！当前消息

北京公积金电话查询号码是多少_北京公积金电话-全球球精选

新华时论｜以“一流环境”造就“二期现象”|天天观察

宁波银行李仁杰董事任职资格获核准

时尚

演艺

游戏