• 匿名论文提出奇招!增强大模型长文本能力居然还能这么做

    丰色发自凹非寺量子位|公众号QbitAI一提到提高大模型长文本能力,就想到长度外推或者上下文窗口扩展?不行,这些都太费硬件资源了。来看一个奇妙新解:和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。具体办法就是建一个临时Lora模块,让它仅在长文本生成过程中"流式更新",也就是用先前生成的内容

    标签: 翻译 abs 量子位

     

    2024-02-03 00:29:29

  • 国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上

    衡宇发自凹非寺量子位|公众号QbitAI国产大模型玩家智谱AI,交出最新成绩单——发布全自研第四代基座大模型GLM-4,且所有更新迭代的能力全量上线。作为国内唯一一个产品线全对标OpenAI的大模型公司,智谱年前攒了波大的:按官方说法,GLM-4性能相比GLM-3提升60%,逼近GPT-4。而同时推出的GLM-4-Al

    标签: 量子位 效果 开源

     

    2024-01-17 08:25:49

热门推荐

    栏目ID=0的表不存在(操作类型=1)

商机推荐

    栏目ID=的表不存在(操作类型=0)

关于我们· 联系我们· 商务合作· 免责声明· 技术支持

Copyright © 2018-2020, 版权所有 侵权必究. 信息维权、举报:853029381@qq.com

免责声明:以上所展示的信息由企业自行提供,内容的真实性、准确性和合法性由发布企业负责, 对此不承担责任.