About 50 results
Open links in new tab
  1. LLaMa-1 技术详解

    Sep 26, 2025 · 此次 Meta 发布的 Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体。此外还训练了 340 亿参数变体,但并没有发布,只在技术报告中提到了。 据介绍, 相比于 Llama …

  2. 如何评价 Meta 刚刚发布的 LLama 4 系列大模型? - 知乎

    Apr 5, 2025 · 如何评价 Meta 刚刚发布的 LLama 4 系列大模型? 刚刚,当地时间2025年4月5日,Meta 发布了 Llama 4 系列模型。 [图片] 其中的Maveric的预览版已经登录LMArena,以141… 显示全部 关 …

  3. Meta 发布开源可商用模型 Llama 2,实际体验效果如何?

    LLaMA-2-chat 几乎是开源模型中唯一做了 RLHF 的模型。 这个东西太贵了,Meta 真是大功一件! 根据下图的结果,LLaMA-2 经过 5 轮 RLHF 后,在 Meta 自己的 reward 模型与 GPT-4 的评价下,都表 …

  4. 如何看待 Meta 发布 Llama3,并将推出 400B+ 版本? - 知乎

    -如果Meta 的LLAMA-3系列全面开源,甚至之后的LLAMA-4也持续开源(目前看这个可能性是较大的,Meta的开源决心比较大,相比而言,谷歌还是决心不太够,商业利益考虑更多些),那么国内应 …

  5. Meta 发布模型 Llama 3,实际体验效果如何? - 知乎

    Llama 3 70B 的能力,已经可以和 Claude 3 Sonnet 与 Gemini 1.5 Pro 等量齐观,甚至都已经超过了去年的两款 GPT-4 。 更有意思的,就是价格了。实际上,不论是 8B 和 70B 的 Llama 3 ,你都可以在本 …

  6. 如何评价 LLaMA 模型泄露? - 知乎

    想要快速玩起来 LLaMA 分三步: 下载模型文件 使用 Docker 准备运行环境 运行它,开玩 我们先来进行第一步操作,下载模型文件。 下载 LLaMA 模型文件 网上随处可见的下载地址就不再赘述(比如 官 …

  7. Deepseek为什么蒸馏llama和Qwen模型,而不用671B满血模型去蒸馏自 …

    Feb 17, 2025 · 三个可能原因,一是 deepseek v3没有自己的小模型;二是v2或2.5的小尺寸模型不如 llama 和 qwen 同级别尺寸的性能。 ;三是蒸馏后的模型,llama和qwen有更好的部署生态。

  8. LLaMA 的GGML和GGUF区别是什么? - 知乎

    整体来看,GGUF文件格式通过这些结构化的组件提供了一种高效、灵活且可扩展的方式来存储和处理机器学习模型。这种设计不仅有助于快速加载和处理模型,而且还支持未来技术的发展和新功能的添加 …

  9. 一文读懂Llama 2(从原理到实战)

    Sep 26, 2025 · Llama 2-Chat的训练过程:这个过程从使用公开可用的在线资源对Llama 2进行预训练开始。 接下来,通过应用有监督微调,创建了Llama 2-Chat的初始版本。 随后,使用人类反馈强化学 …

  10. 做大模型RL后训练,用huggingface/trl还是用llama-factory?

    14B模型,我用llama-factory做过reward model的lora训练和PPO的lora训练,具体训练脚本可以看我的两篇文章。 PPO训练实践——基于llamafactory训练框架 和 RewardModel 训练实践——基 …