Skip to content

deepseek时llmprovider是什么啊 #621

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
1 task done
Felix3322 opened this issue Apr 11, 2025 · 3 comments
Open
1 task done

deepseek时llmprovider是什么啊 #621

Felix3322 opened this issue Apr 11, 2025 · 3 comments
Labels
bug Something isn't working

Comments

@Felix3322
Copy link
Contributor

是否已存在类似问题?

  • 我已搜索现有问题

当前行为

一个未预料的参数,直接用的仓库代码不是发行版

2025-04-11 22:33:00.377 | INFO     | __main__:<module>:783 - Start Generating Video

2025-04-11 22:33:00.377 | INFO     | __main__:<module>:784 - {
    "video_subject": "OpenAI泄露的模型参数",
    "video_script": "# 微软 MEDEC 论文泄露 OpenAI 模型参数事件分析\n\n微软和华盛顿大学团队在 2024 年 12 月 26 日发布了一篇论文《MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes》(简称 MEDEC),无意中披露了多个主流大型语言模型(LLM)的参数规模估计,包括 OpenAI 的 GPT-4、GPT-4o 及其 Mini 版本,以及新模型系列 “o1” 等。这一事件引发了业内对于 OpenAI 模型参数规模的热议和猜测。本文将围绕这一事件展开深入分析,包括论文的发布与修改情况、所泄露参数信息的可信度评估,以及社区和媒体对此的讨论与反应。\n\n## 论文发布经过与版本变动\n\nMEDEC 论文最初以预印本形式发布在 arXiv 平台(编号 arXiv:2412.19260)。**2024 年 12 月 26 日**,作者提交了第一个版本 (v1)。在该版本中,论文的第 5.1 节“Language Models”直接列出了多款最新大模型的参数量估计值,包括 GPT-4 系列和 o1 系列模型等(详见下文)。由于这些模型的准确参数规模 OpenAI 从未正式公开,这些信息相当于**间接“泄露”了 OpenAI 封闭模型的参数规模**,从而引发广泛关注。\n\n**2025 年 1 月 2 日**,作者更新了论文版本 (v2)。更新后的论文依然保留了这些参数规模数据,但对措辞和引用做出了一些调整,以澄清这些数字的来源和可信度。例如,作者在参数列表后增加说明称:**“多数参数数量只是估计值,仅用于提供模型性能的背景参考”**。同时还附上脚注列出了信息来源链接(如 LifeArchitect、The Algorithmic Bridge、HashTechWave 等网站)。换言之,作者明确表示这些参数规模并非官方公布的数据,而是**从公开文章中收集的估计**。通过这些修改,论文作者并未删除相关参数信息,但强化了免责声明,以避免读者将其视作官方确认的模型规模。\n\n截至目前(2025 年初),该论文**未被撤回或删减敏感信息**。相反,作者选择通过添加来源引用和声明的方式继续公开这些参数估计。这表明论文本身仍完整可访问,所涉模型参数信息在经过澄清后依然保留于文中 (arXiv v2)。下面将具体介绍论文中披露的模型参数详情。\n\n## 泄露的模型参数详情\n\n ([A new Microsoft paper lists sizes for most of the closed models : r/LocalLLaMA](https://www.reddit.com/r/LocalLLaMA/comments/1hrb1hp/a_new_microsoft_paper_lists_sizes_for_most_of_the/))  \n*图:MEDEC 论文第 5.1 节所列出的各模型及其参数量估计(摘自 arXiv 预印本)*\n\n论文中列出的模型参数包括 OpenAI、Anthropic 以及 Google 的多款最近模型。表1汇总了主要相关模型及其参数规模(均为论文中给出的近似估计值),并注明其来源或背景:\n\n| 模型                   | 论文披露的参数量 (估计)         | 备注说明                             |\n|----------------------|--------------------------|----------------------------------|\n| **GPT-4**            | ≈1.76 T 参数(约1.76万亿) | OpenAI 2023年推出的多模态模型,传闻采用Mixture-of-Experts架构,总参数规模在1.7万亿级别。论文引用将其称为“高智能”模型。 |\n| **ChatGPT** (GPT-3.5)| ≈175 B 参数(约1750亿) | OpenAI 2023年推出的对话模型,约等同于 GPT-3.5 系列模型的规模。175B参数与众所周知的GPT-3模型规模相当。 |\n| **Claude 3.5 Sonnet**| ≈175 B 参数(约1750亿) | Anthropic 于 2024 年推出的 Claude 3.5 系列最新模型 “Sonnet”,性能先进。其参数量与 GPT-3 相近,也与 ChatGPT 相当。这一点令一些网友惊讶,因相当于GPT-3 Davinci的规模。 |\n| **Gemini 2.0 Flash** | (未公开)               | Google 最新的 Gemini 模型,具体参数未知。论文提及了 Google 另一医学模型 Med-PaLM (~540B 参数) 以作对比。 |\n| **GPT-4o**           | ≈200 B 参数(约2000亿) | OpenAI 2024 年发布的新模型,标榜“达到 GPT-4 级智能但速度更快”。参数规模显著小于 GPT-4,据称为提升推理速度。 |\n| **GPT-4o-mini**      | ≈8 B 参数(约80亿)   | OpenAI 于 2024 年推出的 GPT-4o 小型版 (型号 gpt-4o-2024-05-13),专注特定任务。仅有几亿参数的说法令人震惊,在业界属极小规模模型。这一数字引发争议,不少讨论推测其可能采用了 MoE 架构,**实际总参数或许更大但激活参数约为8B**。 |\n| **o1-preview**       | ≈300 B 参数(约3000亿) | OpenAI 2024 年的新模型系列 “o1” 的预览版 (2024-09-12),据称具备“全新 AI 能力”,擅长复杂推理。这是一个尚未公开发布的前沿模型,参数规模据估计介于GPT-3.5与GPT-4o之间。 |\n| **o1-mini**          | ≈100 B 参数(约1000亿) | OpenAI “o1” 系列的小型版本 (2024-09-12),定位类似 GPT-4o-mini 的廉价高效模型。规模约百亿级。 |\n\n*表1:MEDEC 论文披露的各大型模型参数规模估计值(B=10<sup>9</sup>,T=10<sup>12</sup>)*\n\n上述参数数据均直接摘自论文第5.1节**“Language Models”**中的描述列表。论文作者特别强调,这些**并非 OpenAI 官方公布的精确数值**,而是基于公开信息推断的近似值。他们列举了用于推断的资料来源,包括一些研究者博客和新闻文章。例如,GPT-4 参数≈1.76万亿的说法,与此前 SemiAnalysis 等渠道泄露的**“GPT-4 为8个子模型、总参数约1.8万亿”**的报告一致;而 GPT-4o-mini 仅8亿参数这一意外信息,在论文发布前并无可靠消息来源,可能是作者参考某些平台文档或传闻得出的结论。\n\n值得注意的是,**论文中除了 OpenAI 模型,还披露了 Anthropic 和 Google 模型的一些信息**。比如 Claude 3.5 Sonnet 的参数约175B,与Anthropic未公开的数据相符;Google 的 Med-PaLM 提及为540B参数,对应先前Google公布的模型规模。但**OpenAI系列模型的参数一直是保密的商业机密**,因此论文将这些估计披露出来,被业界视作一次“侧面泄露”或“线索”。\n\n## 参数泄露信息的真实性分析\n\n**对于这些泄露参数的可信度,业内看法不一**。总体而言,这些数字与此前圈内推测的数量级大体吻合,但仍需谨慎解读:\n\n- **GPT-4 (~1.76T)**:这一规模与多方传闻基本一致,最初由 Semafor 等媒体和专家(如 George Hotz)爆料。据传 GPT-4 采用 Mixture-of-Experts (MoE) 架构,由 8 个约220B参数的子模型组成,总参数约1.76万亿。NVIDIA 早些时候的一些演讲中也暗示过 GPT-4 可能在万亿级参数规模。因此,论文给出的≈1.76T **非常符合此前可靠传闻**,可信度较高。OpenAI 虽从未正式确认,但社区普遍接受 GPT-4 为**“万亿参数量级”**模型。\n\n- **ChatGPT/GPT-3.5 (~175B)**:1750亿参数正是 GPT-3 (Davinci) 模型的已知规模,也对应了 ChatGPT 所基于的 GPT-3.5 系列规模。这个数字**并不令人意外**,同时也侧面印证 Anthropic Claude 3.5 Sonnet (~175B) 与 GPT-3.5 处于同一量级。因此可信度很高,属于公开常识范围。\n\n- **GPT-4o (~200B)**:GPT-4o 是 OpenAI 于 2024 年推出的新模型,宣传能以更快速度提供接近 GPT-4 的智能。假设 OpenAI 为提升响应速度而缩小了模型规模,那么 2000 亿参数是**合理的猜测**。这一规模比 GPT-3.5(175B)略高、远小于 GPT-4(≈1.7T),符合其性能定位(优于GPT-3.5但不及GPT-4)。虽然 OpenAI官方未公布 GPT-4o 架构,但微软研究团队的估计**可能来自内部对比或可靠消息**,因而被认为具有一定可信度。一些业内观点认为,微软研究员做出的“教育性猜测”很可能接近事实 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。截至目前暂无相反证据质疑这个数字。\n\n- **GPT-4o-mini (~8B)**:这个数字引发最多争议。**8 亿参数对于号称具备 GPT-4 级别能力的小模型来说几乎不可思议**。即使通过高质量训练和蒸馏,小小的8B模型也难以达到 GPT-4o 所宣称的性能。社区对此提出两种主要看法:其一,认为**8B是激活参数而总参数更多**,即 GPT-4o-mini 可能采用 MoE 架构,例如总参数规模或许在数十亿(有猜测约40B)但每次推断仅用到8B。这种设计能解释为何一个“8B模型”表现超出常规8B模型水平。另一种看法则认为**8B可能就是指模型的实际总参数**,但持怀疑态度,认为如此之小的模型不太可能达到预期能力 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Perhaps%2C%20but%20there%20are%20other,performance%20out%20of%20small%20models))。有人指出 Google 的类似小模型 Gemini 1.5 Flash-8B 的性能尚不及 GPT-4o-mini,可见若非有特殊架构优化,8B参数显得**过低** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Perhaps%2C%20but%20there%20are%20other,performance%20out%20of%20small%20models))。综上,GPT-4o-mini 的参数规模真实性存疑,**更倾向于是作者基于有限线索做出的粗略估计**。除非 OpenAI 将来公开详情,否则该数字暂不能被视作确凿。\n\n- **o1-preview (300B) / o1-mini (100B)**:OpenAI 的 “o1” 系列是2024年下半年出现的新代号,据猜测可能是下一代基础模型或架构革新的尝试。由于尚未正式发布,外界对其所知甚少。论文给出的 3000亿和1000亿参数,很可能参考了独立研究者的推测(例如 LifeArchitect 博客)。这个级别在逻辑上说得通:OpenAI 可能在 GPT-4 (≈1T+) 和 GPT-3.5 (175B) 之间开发中等规模模型,以融合新能力和效率。**100B 和 300B 参数的猜测目前无更可靠信息佐证,但在数百亿到千亿这个范围**属于合理假设。有业内消息称,OpenAI 的 O系列模型代号“Arrakis/Gobi”等,可能采用更高效架构实现较高智能,此情况下参数量未必需要上万亿。总之,对于 o1 系列,论文提供了难得的线索,但其真实性**仍需后续验证**。考虑到这些数据只是来自网络信息挖掘,不能排除误差甚至错误的可能。\n\n- **Claude 3.5 Sonnet (175B)**:Anthropic 并未公开 Claude 3.5 的参数量,但 175B 完全符合预期(Claude 2 代模型据传即在百亿量级)。Claude 3.5 表现强劲,和 GPT-3.5 同规模也在情理之中。Anthropic 官方曾暗示 Claude 2 系列参数接近 GPT-3 量级,故175B很可能是正确的。这个数据可信度较高。\n\n总的来说,**论文泄露的参数量信息大部分与此前业内推测相符**,在合理范围内。其中 GPT-4≈1.7T 及Claude≈175B等几项几乎可以被视为非官方的“公开秘密”。而 GPT-4o-mini 8B和 o1系列参数等则**缺乏独立权威来源**,需要持保留态度。论文作者也一再提醒读者,这些数字仅供上下文参考,并不保证准确。正如一位网友所言:“研究人员对这些参数的了解并不比其他懂行的工程师更多” ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Vivid_Dot_6405))——换言之,我们应将其视为**有依据的猜测**,而非最终定论。\n\n## 社区与媒体反应\n\n该事件很快在学术和科技社区引发热议。从社交媒体到科技新闻,围绕 OpenAI 模型参数的讨论此起彼伏。以下是本次泄露事件的时间线及各方反应概述:\n\n- **2024年12月26日:论文发布(arXiv v1)**。微软-华盛顿大学团队在arXiv提交MEDEC论文,公开了上述参数估计。当时作者尚未特别强调这些数字的来源,仅在正文标注“≈”符号和简单注释。这一版本立即引起关注,不少研究者和开发者阅读论文时注意到了这些**罕见披露的模型规模**。\n\n- **2024年12月下旬:社区发现并讨论**。论文发布后几天内,Reddit等论坛上出现相关帖子。一篇在 r/LocalLLaMA 版的帖子标题即指出“微软新论文列出了多数封闭模型的规模”(附带论文链接)。讨论中,许多人惊讶于 GPT-4o-mini 只有8B参数,也有人质疑这些数字的真实性。一位用户引用论文中的说明提醒大家:“大多数参数量是估计值…所以不是真实的”。还有人调侃道:“现在我们在 Arxiv 上看到天气预报(意指预测性质的数据)”。总体而言,**社区对这些数字半信半疑**:既觉得来自微软的消息颇具分量,但又担心只是**估算而非官方** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=These%20numbers%20are%20all%20made,the%20parameters%20these%20models%20have)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Vivid_Dot_6405))。许多网友注意到论文紧跟参数列表后的声明,指出这些数字只是估计,批评一些夸张解读者“应当先读论文再议论” ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=%E2%80%A2))。不过也有观点认为,即便是猜测,微软研究员的**“教育性猜测”**可能是目前能得到的最接近真相的信息 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。\n\n- **2025年1月2日:论文更新(arXiv v2)及媒体报道**。作者在新年初更新了论文版本,**加入了脚注来源和更明确的免责声明**。同日,多家媒体开始报道此事。中国科技媒体 AIBase 发布文章称:“微软在医疗AI评估论文中再次‘意外’透露多家公司顶尖大模型的参数规模”。文中具体引用了 OpenAI 模型的参数值:o1-preview约300B、GPT-4o约200B、GPT-4o-mini仅8B,并指出这与 NVIDIA 此前声称的 GPT-4 采用1.76万亿参数 MoE 架构形成鲜明对比。该报道还提及微软去年10月也曾在论文中泄露 GPT-3.5-Turbo 参数(20B)并在更新时删除了该信息。印度媒体 Analytics India Magazine 则以《微软是否泄露了 OpenAI 的秘密?》为题报道,强调微软论文暗示了 OpenAI o1-mini 和 GPT-4o-mini 的参数量分别约为100B和8B ([Did Microsoft Spill the Secrets of OpenAI? - Ground News](https://ground.news/article/did-microsoft-spill-the-secrets-of-openai#:~:text=Did%20Microsoft%20Spill%20the%20Secrets,billion%20and%208%20billion)) ([Prakash Advani on X: \"Did Microsoft Spill the Secrets of OpenAI ...](https://x.com/prakashadvani/status/1875228770250190984#:~:text=Prakash%20Advani%20on%20X%3A%20,and%208%20billion%20parameters%2C))。此外,Medium 上也有分析文章(作者 Meng Li)对这一事件进行了解读。这篇文章强调 GPT-4o-mini 仅8B参数的消息在推特上引发了广泛讨论,同时再次列出了Claude 3.5 Sonnet(175B)、GPT-4 (1.76T)、GPT-4o (200B)、o1-preview (300B)等数据。由此可见,**进入2025年后,各路媒体与自媒体接力报道**,将此事推向更大范围的受众。\n\n- **2025年1月上旬:深度讨论与后续影响**。随着话题发酵,更多行业人士参与讨论。在推特/ X 平台上,不少 AI 从业者分享相关新闻和自己的看法。例如,有人猜测 GPT-4o-mini 可能通过 MoE 等技术实现高效,在小参数下发挥大模型作用;也有人感叹 OpenAI和微软在模型优化上投入之大,以及成本与性能的权衡。有趣的是,截至目前**OpenAI 官方并未对这些传闻做任何澄清或回应**,延续了一贯的保密作风。同时,这次“参数泄露”事件也让业内开始思考大模型参数与能力的关系:模型并非一味追求更大,有时更小的模型配合新架构和优质数据也能取得令人惊艳的效果(GPT-4o 系列即是例子)。从社区反馈看,很多人在得知GPT-4o-mini仅8B参数后,对其性能表现产生了新的评价和质疑,一些开发者表示难怪感觉新版模型**“变轻量了,但也变弱了”** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=older%20more%20expensive%20models%20because,cliche%27d%20phrases%20over%20and%20over)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=So%20good%20job%20on%20making,on%20par%20with%20it%20now))。这说明参数规模信息的披露影响了用户对模型性能的主观感受和选择。\n\n总的来看,本次事件经历了**论文发布—社区发酵—媒体报道—深入讨论**的过程。由于包含的信息关系到 OpenAI 最新一代模型的机密指标,引发的关注度远超一般学术论文。值得注意的是,**微软研究团队已非首次在论文中泄露 OpenAI 模型细节**:上一年就有类似前科(GPT-3.5 Turbo 参数)。因此有观点猜测微软此举或许**别有用意**。有人揣测,这可能是微软在试探公众反应,亦或是有意为之的营销策略(展示Azure/OpenAI模型的领先地位)。当然这仍属猜测,无法证实。但可以肯定的是,这类事件凸显了**研究出版和商业机密的边界模糊**:研究者为了学术讨论引用了未经证实的指标,却意外变相披露了机密,引发轩然大波。\n\n## 结论\n\n微软 MEDEC 论文泄露 OpenAI 模型参数量的事件,为我们提供了一次窥探**闭源大模型规模**的难得机会。在这篇医疗错误检测基准的论文中,作者罗列的参数规模成为焦点,甚至一度掩盖了论文本身的研究贡献。在分析中我们发现:\n\n- 论文的**旧版本确实包含模型参数细节**,新版本虽保留数据但加强了免责声明,显示作者意识到了信息敏感性但选择透明估计来源而非删除内容。\n- **泄露的参数量与此前行业传闻大体吻合**,尤其是GPT-4、GPT-3.5/Claude等的规模,增强了这些非官方信息的可信度。极端值如GPT-4o-mini 8B则引发质疑,提示我们应理性对待此类未证实数据。\n- 社区和媒体对此高度关注,既有热烈讨论也有审慎声音。部分网友截取论文原文佐证,也有人批评夸大解读。总体舆论在质疑与认可间反复 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=These%20numbers%20are%20all%20made,the%20parameters%20these%20models%20have)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。\n- 此事件延续了微软研究在论文中**“不小心”披露合作方模型内幕**的传统,引发关于**大模型透明度**的讨论。一方面,学术沟通需要上下文信息,另一方面,商业机密又要求谨慎。如何拿捏两者分寸,是未来类似合作研究需要注意的问题。\n\n展望未来,OpenAI 是否会针对这些猜测发布官方数据仍未可知。考虑到 OpenAI 长期以来对模型细节三缄其口,我们也许不会得到正面回应。不过,通过此次事件,行业对于 GPT-4 以及后续模型的规模和架构有了更清晰的认知轮廓。例如,**GPT-4 确认接近两万亿参数量级,使用 Mixture-of-Experts 的可能性极高**;而 **OpenAI 正在探索百亿级模型的新范式 (o1 系列)**,试图在参数规模和能力之间寻找新的平衡点。社区对此保持高度兴趣,相关话题仍在持续讨论中。\n\n最后,我们要强调,**大模型的参数规模只是衡量能力的一个维度**。正如MEDEC论文本身所研究的,在医疗这样的专业场景下,模型是否出错、能否纠正错误,比单纯的参数大小更加重要。此次参数泄露事件固然吸睛,但也提醒我们关注模型实际表现和应用价值。正如论文作者在结论中所言,尽管近期LLM在错误检测与纠正上表现不错,但仍未超越人类医师,。模型的规模增长终有瓶颈,与其一味追求参数堆砌,不如投入精力提高模型的**专业性、可靠性和可解释性**。这或许才是MEDEC论文想传达的更重要讯息。\n\n**参考来源:**\n\n- MEDEC 论文原文(arXiv:2412.19260)及版本变更说明  \n- 社区讨论(Reddit 论坛)对论文参数泄露的反应和观点 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=%E2%80%A2)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))  \n- 媒体报道和分析文章:AIbase 新闻、Followin/36Kr、Medium 专栏分析等  \n- 其他背景资料:SemiAnalysis 泄露的 GPT-4 架构报告、微软 Mark Russinovich 对小模型能力的讨论 ([What runs GPT-4o and Microsoft Copilot? | Largest AI supercomputer in the cloud | Mark Russinovich](https://techcommunity.microsoft.com/blog/microsoftmechanicsblog/what-runs-gpt-4o-and-microsoft-copilot--largest-ai-supercomputer-in-the-cloud--m/4150701#:~:text=services%2C%20but%20where%20this%20makes,Llama%2C%20Mistral%2C%20and%20many%20more)) ([What runs GPT-4o and Microsoft Copilot? | Largest AI supercomputer in the cloud | Mark Russinovich](https://techcommunity.microsoft.com/blog/microsoftmechanicsblog/what-runs-gpt-4o-and-microsoft-copilot--largest-ai-supercomputer-in-the-cloud--m/4150701#:~:text=match%20at%20L200%20Research,Runtime%20for%20inference%2C%20which%20makes))、OpenAI 新模型发布信息等。\n\n",
    "video_terms": "",
    "video_aspect": "16:9",
    "video_concat_mode": "random",
    "video_clip_duration": 3,
    "video_count": 1,
    "video_source": "pixabay",
    "video_materials": null,
    "video_language": "",
    "voice_name": "en-US-AnaNeural-Female",
    "voice_volume": 1.0,
    "voice_rate": 1.0,
    "bgm_type": "random",
    "bgm_file": "",
    "bgm_volume": 0.2,
    "subtitle_enabled": true,
    "subtitle_position": "bottom",
    "custom_position": 70.0,
    "font_name": "STHeitiMedium.ttc",
    "text_fore_color": "#FFFFFF",
    "text_background_color": "transparent",
    "font_size": 60,
    "stroke_color": "#000000",
    "stroke_width": 1.5,
    "n_threads": 2,
    "paragraph_number": 1
}

2025-04-11 22:33:00.378 | INFO     | app.services.task:start:210 - start task: 9a738fdd-00b9-48d1-9cfb-80b0b73a738b, stop_at: video

2025-04-11 22:33:00.378 | INFO     | app.services.task:generate_script:18 - 

## generating video script

2025-04-11 22:33:00.379 | DEBUG    | app.services.task:generate_script:27 - video script: 
# 微软 MEDEC 论文泄露 OpenAI 模型参数事件分析

微软和华盛顿大学团队在 2024 年 12 月 26 日发布了一篇论文《MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes》(简称 MEDEC),无意中披露了多个主流大型语言模型(LLM)的参数规模估计,包括 OpenAI 的 GPT-4、GPT-4o 及其 Mini 版本,以及新模型系列 “o1” 等。这一事件引发了业内对于 OpenAI 模型参数规模的热议和猜测。本文将围绕这一事件展开深入分析,包括论文的发布与修改情况、所泄露参数信息的可信度评估,以及社区和媒体对此的讨论与反应。

## 论文发布经过与版本变动

MEDEC 论文最初以预印本形式发布在 arXiv 平台(编号 arXiv:2412.19260)。**2024 年 12 月 26 日**,作者提交了第一个版本 (v1)。在该版本中,论文的第 5.1 节“Language Models”直接列出了多款最新大模型的参数量估计值,包括 GPT-4 系列和 o1 系列模型等(详见下文)。由于这些模型的准确参数规模 OpenAI 从未正式公开,这些信息相当于**间接“泄露”了 OpenAI 封闭模型的参数规模**,从而引发广泛关注。

**2025 年 1 月 2 日**,作者更新了论文版本 (v2)。更新后的论文依然保留了这些参数规模数据,但对措辞和引用做出了一些调整,以澄清这些数字的来源和可信度。例如,作者在参数列表后增加说明称:**“多数参数数量只是估计值,仅用于提供模型性能的背景参考”**。同时还附上脚注列出了信息来源链接(如 LifeArchitect、The Algorithmic Bridge、HashTechWave 等网站)。换言之,作者明确表示这些参数规模并非官方公布的数据,而是**从公开文章中收集的估计**。通过这些修改,论文作者并未删除相关参数信息,但强化了免责声明,以避免读者将其视作官方确认的模型规模。

截至目前(2025 年初),该论文**未被撤回或删减敏感信息**。相反,作者选择通过添加来源引用和声明的方式继续公开这些参数估计。这表明论文本身仍完整可访问,所涉模型参数信息在经过澄清后依然保留于文中 (arXiv v2)。下面将具体介绍论文中披露的模型参数详情。

## 泄露的模型参数详情

 ([A new Microsoft paper lists sizes for most of the closed models : r/LocalLLaMA](https://www.reddit.com/r/LocalLLaMA/comments/1hrb1hp/a_new_microsoft_paper_lists_sizes_for_most_of_the/))  
*图:MEDEC 论文第 5.1 节所列出的各模型及其参数量估计(摘自 arXiv 预印本)*

论文中列出的模型参数包括 OpenAI、Anthropic 以及 Google 的多款最近模型。表1汇总了主要相关模型及其参数规模(均为论文中给出的近似估计值),并注明其来源或背景:

| 模型                   | 论文披露的参数量 (估计)         | 备注说明                             |
|----------------------|--------------------------|----------------------------------|
| **GPT-4**            | ≈1.76 T 参数(约1.76万亿) | OpenAI 2023年推出的多模态模型,传闻采用Mixture-of-Experts架构,总参数规模在1.7万亿级别。论文引用将其称为“高智能”模型。 |
| **ChatGPT** (GPT-3.5)| ≈175 B 参数(约1750亿) | OpenAI 2023年推出的对话模型,约等同于 GPT-3.5 系列模型的规模。175B参数与众所周知的GPT-3模型规模相当。 |
| **Claude 3.5 Sonnet**| ≈175 B 参数(约1750亿) | Anthropic 于 2024 年推出的 Claude 3.5 系列最新模型 “Sonnet”,性能先进。其参数量与 GPT-3 相近,也与 ChatGPT 相当。这一点令一些网友惊讶,因相当于GPT-3 Davinci的规模。 |
| **Gemini 2.0 Flash** | (未公开)               | Google 最新的 Gemini 模型,具体参数未知。论文提及了 Google 另一医学模型 Med-PaLM (~540B 参数) 以作对比。 |
| **GPT-4o**           | ≈200 B 参数(约2000亿) | OpenAI 2024 年发布的新模型,标榜“达到 GPT-4 级智能但速度更快”。参数规模显著小于 GPT-4,据称为提升推理速度。 |
| **GPT-4o-mini**      | ≈8 B 参数(约80亿)   | OpenAI 于 2024 年推出的 GPT-4o 小型版 (型号 gpt-4o-2024-05-13),专注特定任务。仅有几亿参数的说法令人震惊,在业界属极小规模模型。这一数字引发争议,不少讨论推测其可能采用了 MoE 架构,**实际总参数或许更大但激活参数约为8B**。 |
| **o1-preview**       | ≈300 B 参数(约3000亿) | OpenAI 2024 年的新模型系列 “o1” 的预览版 (2024-09-12),据称具备“全新 AI 能力”,擅长复杂推理。这是一个尚未公开发布的前沿模型,参数规模据估计介于GPT-3.5与GPT-4o之间。 |
| **o1-mini**          | ≈100 B 参数(约1000亿) | OpenAI “o1” 系列的小型版本 (2024-09-12),定位类似 GPT-4o-mini 的廉价高效模型。规模约百亿级。 |

*表1:MEDEC 论文披露的各大型模型参数规模估计值(B=10<sup>9</sup>,T=10<sup>12</sup>)*

上述参数数据均直接摘自论文第5.1节**“Language Models”**中的描述列表。论文作者特别强调,这些**并非 OpenAI 官方公布的精确数值**,而是基于公开信息推断的近似值。他们列举了用于推断的资料来源,包括一些研究者博客和新闻文章。例如,GPT-4 参数≈1.76万亿的说法,与此前 SemiAnalysis 等渠道泄露的**“GPT-4 为8个子模型、总参数约1.8万亿”**的报告一致;而 GPT-4o-mini 仅8亿参数这一意外信息,在论文发布前并无可靠消息来源,可能是作者参考某些平台文档或传闻得出的结论。

值得注意的是,**论文中除了 OpenAI 模型,还披露了 Anthropic 和 Google 模型的一些信息**。比如 Claude 3.5 Sonnet 的参数约175B,与Anthropic未公开的数据相符;Google 的 Med-PaLM 提及为540B参数,对应先前Google公布的模型规模。但**OpenAI系列模型的参数一直是保密的商业机密**,因此论文将这些估计披露出来,被业界视作一次“侧面泄露”或“线索”。

## 参数泄露信息的真实性分析

**对于这些泄露参数的可信度,业内看法不一**。总体而言,这些数字与此前圈内推测的数量级大体吻合,但仍需谨慎解读:

- **GPT-4 (~1.76T)**:这一规模与多方传闻基本一致,最初由 Semafor 等媒体和专家(如 George Hotz)爆料。据传 GPT-4 采用 Mixture-of-Experts (MoE) 架构,由 8 个约220B参数的子模型组成,总参数约1.76万亿。NVIDIA 早些时候的一些演讲中也暗示过 GPT-4 可能在万亿级参数规模。因此,论文给出的≈1.76T **非常符合此前可靠传闻**,可信度较高。OpenAI 虽从未正式确认,但社区普遍接受 GPT-4 为**“万亿参数量级”**模型。

- **ChatGPT/GPT-3.5 (~175B)**:1750亿参数正是 GPT-3 (Davinci) 模型的已知规模,也对应了 ChatGPT 所基于的 GPT-3.5 系列规模。这个数字**并不令人意外**,同时也侧面印证 Anthropic Claude 3.5 Sonnet (~175B) 与 GPT-3.5 处于同一量级。因此可信度很高,属于公开常识范围。

- **GPT-4o (~200B)**:GPT-4o 是 OpenAI 于 2024 年推出的新模型,宣传能以更快速度提供接近 GPT-4 的智能。假设 OpenAI 为提升响应速度而缩小了模型规模,那么 2000 亿参数是**合理的猜测**。这一规模比 GPT-3.5(175B)略高、远小于 GPT-4(≈1.7T),符合其性能定位(优于GPT-3.5但不及GPT-4)。虽然 OpenAI官方未公布 GPT-4o 架构,但微软研究团队的估计**可能来自内部对比或可靠消息**,因而被认为具有一定可信度。一些业内观点认为,微软研究员做出的“教育性猜测”很可能接近事实 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。截至目前暂无相反证据质疑这个数字。

- **GPT-4o-mini (~8B)**:这个数字引发最多争议。**8 亿参数对于号称具备 GPT-4 级别能力的小模型来说几乎不可思议**。即使通过高质量训练和蒸馏,小小的8B模型也难以达到 GPT-4o 所宣称的性能。社区对此提出两种主要看法:其一,认为**8B是激活参数而总参数更多**,即 GPT-4o-mini 可能采用 MoE 架构,例如总参数规模或许在数十亿(有猜测约40B)但每次推断仅用到8B。这种设计能解释为何一个“8B模型”表现超出常规8B模型水平。另一种看法则认为**8B可能就是指模型的实际总参数**,但持怀疑态度,认为如此之小的模型不太可能达到预期能力 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Perhaps%2C%20but%20there%20are%20other,performance%20out%20of%20small%20models))。有人指出 Google 的类似小模型 Gemini 1.5 Flash-8B 的性能尚不及 GPT-4o-mini,可见若非有特殊架构优化,8B参数显得**过低** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Perhaps%2C%20but%20there%20are%20other,performance%20out%20of%20small%20models))。综上,GPT-4o-mini 的参数规模真实性存疑,**更倾向于是作者基于有限线索做出的粗略估计**。除非 OpenAI 将来公开详情,否则该数字暂不能被视作确凿。

- **o1-preview (300B) / o1-mini (100B)**:OpenAI 的 “o1” 系列是2024年下半年出现的新代号,据猜测可能是下一代基础模型或架构革新的尝试。由于尚未正式发布,外界对其所知甚少。论文给出的 3000亿和1000亿参数,很可能参考了独立研究者的推测(例如 LifeArchitect 博客)。这个级别在逻辑上说得通:OpenAI 可能在 GPT-4 (≈1T+) 和 GPT-3.5 (175B) 之间开发中等规模模型,以融合新能力和效率。**100B 和 300B 参数的猜测目前无更可靠信息佐证,但在数百亿到千亿这个范围**属于合理假设。有业内消息称,OpenAI 的 O系列模型代号“Arrakis/Gobi”等,可能采用更高效架构实现较高智能,此情况下参数量未必需要上万亿。总之,对于 o1 系列,论文提供了难得的线索,但其真实性**仍需后续验证**。考虑到这些数据只是来自网络信息挖掘,不能排除误差甚至错误的可能。

- **Claude 3.5 Sonnet (175B)**:Anthropic 并未公开 Claude 3.5 的参数量,但 175B 完全符合预期(Claude 2 代模型据传即在百亿量级)。Claude 3.5 表现强劲,和 GPT-3.5 同规模也在情理之中。Anthropic 官方曾暗示 Claude 2 系列参数接近 GPT-3 量级,故175B很可能是正确的。这个数据可信度较高。

总的来说,**论文泄露的参数量信息大部分与此前业内推测相符**,在合理范围内。其中 GPT-4≈1.7T 及Claude≈175B等几项几乎可以被视为非官方的“公开秘密”。而 GPT-4o-mini 8B和 o1系列参数等则**缺乏独立权威来源**,需要持保留态度。论文作者也一再提醒读者,这些数字仅供上下文参考,并不保证准确。正如一位网友所言:“研究人员对这些参数的了解并不比其他懂行的工程师更多” ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Vivid_Dot_6405))——换言之,我们应将其视为**有依据的猜测**,而非最终定论。

## 社区与媒体反应

该事件很快在学术和科技社区引发热议。从社交媒体到科技新闻,围绕 OpenAI 模型参数的讨论此起彼伏。以下是本次泄露事件的时间线及各方反应概述:

- **2024年12月26日:论文发布(arXiv v1)**。微软-华盛顿大学团队在arXiv提交MEDEC论文,公开了上述参数估计。当时作者尚未特别强调这些数字的来源,仅在正文标注“≈”符号和简单注释。这一版本立即引起关注,不少研究者和开发者阅读论文时注意到了这些**罕见披露的模型规模**。

- **2024年12月下旬:社区发现并讨论**。论文发布后几天内,Reddit等论坛上出现相关帖子。一篇在 r/LocalLLaMA 版的帖子标题即指出“微软新论文列出了多数封闭模型的规模”(附带论文链接)。讨论中,许多人惊讶于 GPT-4o-mini 只有8B参数,也有人质疑这些数字的真实性。一位用户引用论文中的说明提醒大家:“大多数参数量是估计值…所以不是真实的”。还有人调侃道:“现在我们在 Arxiv 上看到天气预报(意指预测性质的数据)”。总体而言,**社区对这些数字半信半疑**:既觉得来自微软的消息颇具分量,但又担心只是**估算而非官方** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=These%20numbers%20are%20all%20made,the%20parameters%20these%20models%20have)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Vivid_Dot_6405))。许多网友注意到论文紧跟参数列表后的声明,指出这些数字只是估计,批评一些夸张解读者“应当先读论文再议论” ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=%E2%80%A2))。不过也有观点认为,即便是猜测,微软研究员的**“教育性猜测”**可能是目前能得到的最接近真相的信息 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。

- **2025年1月2日:论文更新(arXiv v2)及媒体报道**。作者在新年初更新了论文版本,**加入了脚注来源和更明确的免责声明**。同日,多家媒体开始报道此事。中国科技媒体 AIBase 发布文章称:“微软在医疗AI评估论文中再次‘意外’透露多家公司顶尖大模型的参数规模”。文中具体引用了 OpenAI 模型的参数值:o1-preview约300B、GPT-4o约200B、GPT-4o-mini仅8B,并指出这与 NVIDIA 此前声称的 GPT-4 采用1.76万亿参数 MoE 架构形成鲜明对比。该报道还提及微软去年10月也曾在论文中泄露 GPT-3.5-Turbo 参数(20B)并在更新时删除了该信息。印度媒体 Analytics India Magazine 则以《微软是否泄露了 OpenAI 的秘密?》为题报道,强调微软论文暗示了 OpenAI o1-mini 和 GPT-4o-mini 的参数量分别约为100B和8B ([Did Microsoft Spill the Secrets of OpenAI? - Ground News](https://ground.news/article/did-microsoft-spill-the-secrets-of-openai#:~:text=Did%20Microsoft%20Spill%20the%20Secrets,billion%20and%208%20billion)) ([Prakash Advani on X: "Did Microsoft Spill the Secrets of OpenAI ...](https://x.com/prakashadvani/status/1875228770250190984#:~:text=Prakash%20Advani%20on%20X%3A%20,and%208%20billion%20parameters%2C))。此外,Medium 上也有分析文章(作者 Meng Li)对这一事件进行了解读。这篇文章强调 GPT-4o-mini 仅8B参数的消息在推特上引发了广泛讨论,同时再次列出了Claude 3.5 Sonnet(175B)、GPT-4 (1.76T)、GPT-4o (200B)、o1-preview (300B)等数据。由此可见,**进入2025年后,各路媒体与自媒体接力报道**,将此事推向更大范围的受众。

- **2025年1月上旬:深度讨论与后续影响**。随着话题发酵,更多行业人士参与讨论。在推特/ X 平台上,不少 AI 从业者分享相关新闻和自己的看法。例如,有人猜测 GPT-4o-mini 可能通过 MoE 等技术实现高效,在小参数下发挥大模型作用;也有人感叹 OpenAI和微软在模型优化上投入之大,以及成本与性能的权衡。有趣的是,截至目前**OpenAI 官方并未对这些传闻做任何澄清或回应**,延续了一贯的保密作风。同时,这次“参数泄露”事件也让业内开始思考大模型参数与能力的关系:模型并非一味追求更大,有时更小的模型配合新架构和优质数据也能取得令人惊艳的效果(GPT-4o 系列即是例子)。从社区反馈看,很多人在得知GPT-4o-mini仅8B参数后,对其性能表现产生了新的评价和质疑,一些开发者表示难怪感觉新版模型**“变轻量了,但也变弱了”** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=older%20more%20expensive%20models%20because,cliche%27d%20phrases%20over%20and%20over)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=So%20good%20job%20on%20making,on%20par%20with%20it%20now))。这说明参数规模信息的披露影响了用户对模型性能的主观感受和选择。

总的来看,本次事件经历了**论文发布—社区发酵—媒体报道—深入讨论**的过程。由于包含的信息关系到 OpenAI 最新一代模型的机密指标,引发的关注度远超一般学术论文。值得注意的是,**微软研究团队已非首次在论文中泄露 OpenAI 模型细节**:上一年就有类似前科(GPT-3.5 Turbo 参数)。因此有观点猜测微软此举或许**别有用意**。有人揣测,这可能是微软在试探公众反应,亦或是有意为之的营销策略(展示Azure/OpenAI模型的领先地位)。当然这仍属猜测,无法证实。但可以肯定的是,这类事件凸显了**研究出版和商业机密的边界模糊**:研究者为了学术讨论引用了未经证实的指标,却意外变相披露了机密,引发轩然大波。

## 结论

微软 MEDEC 论文泄露 OpenAI 模型参数量的事件,为我们提供了一次窥探**闭源大模型规模**的难得机会。在这篇医疗错误检测基准的论文中,作者罗列的参数规模成为焦点,甚至一度掩盖了论文本身的研究贡献。在分析中我们发现:

- 论文的**旧版本确实包含模型参数细节**,新版本虽保留数据但加强了免责声明,显示作者意识到了信息敏感性但选择透明估计来源而非删除内容。
- **泄露的参数量与此前行业传闻大体吻合**,尤其是GPT-4、GPT-3.5/Claude等的规模,增强了这些非官方信息的可信度。极端值如GPT-4o-mini 8B则引发质疑,提示我们应理性对待此类未证实数据。
- 社区和媒体对此高度关注,既有热烈讨论也有审慎声音。部分网友截取论文原文佐证,也有人批评夸大解读。总体舆论在质疑与认可间反复 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=These%20numbers%20are%20all%20made,the%20parameters%20these%20models%20have)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。
- 此事件延续了微软研究在论文中**“不小心”披露合作方模型内幕**的传统,引发关于**大模型透明度**的讨论。一方面,学术沟通需要上下文信息,另一方面,商业机密又要求谨慎。如何拿捏两者分寸,是未来类似合作研究需要注意的问题。

展望未来,OpenAI 是否会针对这些猜测发布官方数据仍未可知。考虑到 OpenAI 长期以来对模型细节三缄其口,我们也许不会得到正面回应。不过,通过此次事件,行业对于 GPT-4 以及后续模型的规模和架构有了更清晰的认知轮廓。例如,**GPT-4 确认接近两万亿参数量级,使用 Mixture-of-Experts 的可能性极高**;而 **OpenAI 正在探索百亿级模型的新范式 (o1 系列)**,试图在参数规模和能力之间寻找新的平衡点。社区对此保持高度兴趣,相关话题仍在持续讨论中。

最后,我们要强调,**大模型的参数规模只是衡量能力的一个维度**。正如MEDEC论文本身所研究的,在医疗这样的专业场景下,模型是否出错、能否纠正错误,比单纯的参数大小更加重要。此次参数泄露事件固然吸睛,但也提醒我们关注模型实际表现和应用价值。正如论文作者在结论中所言,尽管近期LLM在错误检测与纠正上表现不错,但仍未超越人类医师,。模型的规模增长终有瓶颈,与其一味追求参数堆砌,不如投入精力提高模型的**专业性、可靠性和可解释性**。这或许才是MEDEC论文想传达的更重要讯息。

**参考来源:**

- MEDEC 论文原文(arXiv:2412.19260)及版本变更说明  
- 社区讨论(Reddit 论坛)对论文参数泄露的反应和观点 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=%E2%80%A2)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))  
- 媒体报道和分析文章:AIbase 新闻、Followin/36Kr、Medium 专栏分析等  
- 其他背景资料:SemiAnalysis 泄露的 GPT-4 架构报告、微软 Mark Russinovich 对小模型能力的讨论 ([What runs GPT-4o and Microsoft Copilot? | Largest AI supercomputer in the cloud | Mark Russinovich](https://techcommunity.microsoft.com/blog/microsoftmechanicsblog/what-runs-gpt-4o-and-microsoft-copilot--largest-ai-supercomputer-in-the-cloud--m/4150701#:~:text=services%2C%20but%20where%20this%20makes,Llama%2C%20Mistral%2C%20and%20many%20more)) ([What runs GPT-4o and Microsoft Copilot? | Largest AI supercomputer in the cloud | Mark Russinovich](https://techcommunity.microsoft.com/blog/microsoftmechanicsblog/what-runs-gpt-4o-and-microsoft-copilot--largest-ai-supercomputer-in-the-cloud--m/4150701#:~:text=match%20at%20L200%20Research,Runtime%20for%20inference%2C%20which%20makes))、OpenAI 新模型发布信息等。

2025-04-11 22:33:00.379 | INFO     | app.services.task:generate_terms:38 - 

## generating video terms

2025-04-11 22:33:00.380 | INFO     | app.services.llm:generate_terms:354 - subject: OpenAI泄露的模型参数

2025-04-11 22:33:00.380 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.381 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.383 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 1

2025-04-11 22:33:00.383 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.384 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.385 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 2

2025-04-11 22:33:00.385 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.386 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.386 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 3

2025-04-11 22:33:00.387 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.388 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.389 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 4

2025-04-11 22:33:00.389 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.390 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.391 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 5

2025-04-11 22:33:00.392 | SUCCESS  | app.services.llm:generate_terms:384 - completed: 
[]

2025-04-11 22:33:00.393 | ERROR    | app.services.task:generate_terms:56 - failed to generate video terms.

2025-04-11 22:33:00.395 | ERROR    | __main__:<module>:790 - Video Generation Failed

预期行为

正常生成

重现步骤

llmprovider填deepseek + Pixabay

堆栈追踪/日志

2025-04-11 22:33:00.377 | INFO     | __main__:<module>:783 - Start Generating Video

2025-04-11 22:33:00.377 | INFO     | __main__:<module>:784 - {
    "video_subject": "OpenAI泄露的模型参数",
    "video_script": "# 微软 MEDEC 论文泄露 OpenAI 模型参数事件分析\n\n微软和华盛顿大学团队在 2024 年 12 月 26 日发布了一篇论文《MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes》(简称 MEDEC),无意中披露了多个主流大型语言模型(LLM)的参数规模估计,包括 OpenAI 的 GPT-4、GPT-4o 及其 Mini 版本,以及新模型系列 “o1” 等。这一事件引发了业内对于 OpenAI 模型参数规模的热议和猜测。本文将围绕这一事件展开深入分析,包括论文的发布与修改情况、所泄露参数信息的可信度评估,以及社区和媒体对此的讨论与反应。\n\n## 论文发布经过与版本变动\n\nMEDEC 论文最初以预印本形式发布在 arXiv 平台(编号 arXiv:2412.19260)。**2024 年 12 月 26 日**,作者提交了第一个版本 (v1)。在该版本中,论文的第 5.1 节“Language Models”直接列出了多款最新大模型的参数量估计值,包括 GPT-4 系列和 o1 系列模型等(详见下文)。由于这些模型的准确参数规模 OpenAI 从未正式公开,这些信息相当于**间接“泄露”了 OpenAI 封闭模型的参数规模**,从而引发广泛关注。\n\n**2025 年 1 月 2 日**,作者更新了论文版本 (v2)。更新后的论文依然保留了这些参数规模数据,但对措辞和引用做出了一些调整,以澄清这些数字的来源和可信度。例如,作者在参数列表后增加说明称:**“多数参数数量只是估计值,仅用于提供模型性能的背景参考”**。同时还附上脚注列出了信息来源链接(如 LifeArchitect、The Algorithmic Bridge、HashTechWave 等网站)。换言之,作者明确表示这些参数规模并非官方公布的数据,而是**从公开文章中收集的估计**。通过这些修改,论文作者并未删除相关参数信息,但强化了免责声明,以避免读者将其视作官方确认的模型规模。\n\n截至目前(2025 年初),该论文**未被撤回或删减敏感信息**。相反,作者选择通过添加来源引用和声明的方式继续公开这些参数估计。这表明论文本身仍完整可访问,所涉模型参数信息在经过澄清后依然保留于文中 (arXiv v2)。下面将具体介绍论文中披露的模型参数详情。\n\n## 泄露的模型参数详情\n\n ([A new Microsoft paper lists sizes for most of the closed models : r/LocalLLaMA](https://www.reddit.com/r/LocalLLaMA/comments/1hrb1hp/a_new_microsoft_paper_lists_sizes_for_most_of_the/))  \n*图:MEDEC 论文第 5.1 节所列出的各模型及其参数量估计(摘自 arXiv 预印本)*\n\n论文中列出的模型参数包括 OpenAI、Anthropic 以及 Google 的多款最近模型。表1汇总了主要相关模型及其参数规模(均为论文中给出的近似估计值),并注明其来源或背景:\n\n| 模型                   | 论文披露的参数量 (估计)         | 备注说明                             |\n|----------------------|--------------------------|----------------------------------|\n| **GPT-4**            | ≈1.76 T 参数(约1.76万亿) | OpenAI 2023年推出的多模态模型,传闻采用Mixture-of-Experts架构,总参数规模在1.7万亿级别。论文引用将其称为“高智能”模型。 |\n| **ChatGPT** (GPT-3.5)| ≈175 B 参数(约1750亿) | OpenAI 2023年推出的对话模型,约等同于 GPT-3.5 系列模型的规模。175B参数与众所周知的GPT-3模型规模相当。 |\n| **Claude 3.5 Sonnet**| ≈175 B 参数(约1750亿) | Anthropic 于 2024 年推出的 Claude 3.5 系列最新模型 “Sonnet”,性能先进。其参数量与 GPT-3 相近,也与 ChatGPT 相当。这一点令一些网友惊讶,因相当于GPT-3 Davinci的规模。 |\n| **Gemini 2.0 Flash** | (未公开)               | Google 最新的 Gemini 模型,具体参数未知。论文提及了 Google 另一医学模型 Med-PaLM (~540B 参数) 以作对比。 |\n| **GPT-4o**           | ≈200 B 参数(约2000亿) | OpenAI 2024 年发布的新模型,标榜“达到 GPT-4 级智能但速度更快”。参数规模显著小于 GPT-4,据称为提升推理速度。 |\n| **GPT-4o-mini**      | ≈8 B 参数(约80亿)   | OpenAI 于 2024 年推出的 GPT-4o 小型版 (型号 gpt-4o-2024-05-13),专注特定任务。仅有几亿参数的说法令人震惊,在业界属极小规模模型。这一数字引发争议,不少讨论推测其可能采用了 MoE 架构,**实际总参数或许更大但激活参数约为8B**。 |\n| **o1-preview**       | ≈300 B 参数(约3000亿) | OpenAI 2024 年的新模型系列 “o1” 的预览版 (2024-09-12),据称具备“全新 AI 能力”,擅长复杂推理。这是一个尚未公开发布的前沿模型,参数规模据估计介于GPT-3.5与GPT-4o之间。 |\n| **o1-mini**          | ≈100 B 参数(约1000亿) | OpenAI “o1” 系列的小型版本 (2024-09-12),定位类似 GPT-4o-mini 的廉价高效模型。规模约百亿级。 |\n\n*表1:MEDEC 论文披露的各大型模型参数规模估计值(B=10<sup>9</sup>,T=10<sup>12</sup>)*\n\n上述参数数据均直接摘自论文第5.1节**“Language Models”**中的描述列表。论文作者特别强调,这些**并非 OpenAI 官方公布的精确数值**,而是基于公开信息推断的近似值。他们列举了用于推断的资料来源,包括一些研究者博客和新闻文章。例如,GPT-4 参数≈1.76万亿的说法,与此前 SemiAnalysis 等渠道泄露的**“GPT-4 为8个子模型、总参数约1.8万亿”**的报告一致;而 GPT-4o-mini 仅8亿参数这一意外信息,在论文发布前并无可靠消息来源,可能是作者参考某些平台文档或传闻得出的结论。\n\n值得注意的是,**论文中除了 OpenAI 模型,还披露了 Anthropic 和 Google 模型的一些信息**。比如 Claude 3.5 Sonnet 的参数约175B,与Anthropic未公开的数据相符;Google 的 Med-PaLM 提及为540B参数,对应先前Google公布的模型规模。但**OpenAI系列模型的参数一直是保密的商业机密**,因此论文将这些估计披露出来,被业界视作一次“侧面泄露”或“线索”。\n\n## 参数泄露信息的真实性分析\n\n**对于这些泄露参数的可信度,业内看法不一**。总体而言,这些数字与此前圈内推测的数量级大体吻合,但仍需谨慎解读:\n\n- **GPT-4 (~1.76T)**:这一规模与多方传闻基本一致,最初由 Semafor 等媒体和专家(如 George Hotz)爆料。据传 GPT-4 采用 Mixture-of-Experts (MoE) 架构,由 8 个约220B参数的子模型组成,总参数约1.76万亿。NVIDIA 早些时候的一些演讲中也暗示过 GPT-4 可能在万亿级参数规模。因此,论文给出的≈1.76T **非常符合此前可靠传闻**,可信度较高。OpenAI 虽从未正式确认,但社区普遍接受 GPT-4 为**“万亿参数量级”**模型。\n\n- **ChatGPT/GPT-3.5 (~175B)**:1750亿参数正是 GPT-3 (Davinci) 模型的已知规模,也对应了 ChatGPT 所基于的 GPT-3.5 系列规模。这个数字**并不令人意外**,同时也侧面印证 Anthropic Claude 3.5 Sonnet (~175B) 与 GPT-3.5 处于同一量级。因此可信度很高,属于公开常识范围。\n\n- **GPT-4o (~200B)**:GPT-4o 是 OpenAI 于 2024 年推出的新模型,宣传能以更快速度提供接近 GPT-4 的智能。假设 OpenAI 为提升响应速度而缩小了模型规模,那么 2000 亿参数是**合理的猜测**。这一规模比 GPT-3.5(175B)略高、远小于 GPT-4(≈1.7T),符合其性能定位(优于GPT-3.5但不及GPT-4)。虽然 OpenAI官方未公布 GPT-4o 架构,但微软研究团队的估计**可能来自内部对比或可靠消息**,因而被认为具有一定可信度。一些业内观点认为,微软研究员做出的“教育性猜测”很可能接近事实 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。截至目前暂无相反证据质疑这个数字。\n\n- **GPT-4o-mini (~8B)**:这个数字引发最多争议。**8 亿参数对于号称具备 GPT-4 级别能力的小模型来说几乎不可思议**。即使通过高质量训练和蒸馏,小小的8B模型也难以达到 GPT-4o 所宣称的性能。社区对此提出两种主要看法:其一,认为**8B是激活参数而总参数更多**,即 GPT-4o-mini 可能采用 MoE 架构,例如总参数规模或许在数十亿(有猜测约40B)但每次推断仅用到8B。这种设计能解释为何一个“8B模型”表现超出常规8B模型水平。另一种看法则认为**8B可能就是指模型的实际总参数**,但持怀疑态度,认为如此之小的模型不太可能达到预期能力 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Perhaps%2C%20but%20there%20are%20other,performance%20out%20of%20small%20models))。有人指出 Google 的类似小模型 Gemini 1.5 Flash-8B 的性能尚不及 GPT-4o-mini,可见若非有特殊架构优化,8B参数显得**过低** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Perhaps%2C%20but%20there%20are%20other,performance%20out%20of%20small%20models))。综上,GPT-4o-mini 的参数规模真实性存疑,**更倾向于是作者基于有限线索做出的粗略估计**。除非 OpenAI 将来公开详情,否则该数字暂不能被视作确凿。\n\n- **o1-preview (300B) / o1-mini (100B)**:OpenAI 的 “o1” 系列是2024年下半年出现的新代号,据猜测可能是下一代基础模型或架构革新的尝试。由于尚未正式发布,外界对其所知甚少。论文给出的 3000亿和1000亿参数,很可能参考了独立研究者的推测(例如 LifeArchitect 博客)。这个级别在逻辑上说得通:OpenAI 可能在 GPT-4 (≈1T+) 和 GPT-3.5 (175B) 之间开发中等规模模型,以融合新能力和效率。**100B 和 300B 参数的猜测目前无更可靠信息佐证,但在数百亿到千亿这个范围**属于合理假设。有业内消息称,OpenAI 的 O系列模型代号“Arrakis/Gobi”等,可能采用更高效架构实现较高智能,此情况下参数量未必需要上万亿。总之,对于 o1 系列,论文提供了难得的线索,但其真实性**仍需后续验证**。考虑到这些数据只是来自网络信息挖掘,不能排除误差甚至错误的可能。\n\n- **Claude 3.5 Sonnet (175B)**:Anthropic 并未公开 Claude 3.5 的参数量,但 175B 完全符合预期(Claude 2 代模型据传即在百亿量级)。Claude 3.5 表现强劲,和 GPT-3.5 同规模也在情理之中。Anthropic 官方曾暗示 Claude 2 系列参数接近 GPT-3 量级,故175B很可能是正确的。这个数据可信度较高。\n\n总的来说,**论文泄露的参数量信息大部分与此前业内推测相符**,在合理范围内。其中 GPT-4≈1.7T 及Claude≈175B等几项几乎可以被视为非官方的“公开秘密”。而 GPT-4o-mini 8B和 o1系列参数等则**缺乏独立权威来源**,需要持保留态度。论文作者也一再提醒读者,这些数字仅供上下文参考,并不保证准确。正如一位网友所言:“研究人员对这些参数的了解并不比其他懂行的工程师更多” ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Vivid_Dot_6405))——换言之,我们应将其视为**有依据的猜测**,而非最终定论。\n\n## 社区与媒体反应\n\n该事件很快在学术和科技社区引发热议。从社交媒体到科技新闻,围绕 OpenAI 模型参数的讨论此起彼伏。以下是本次泄露事件的时间线及各方反应概述:\n\n- **2024年12月26日:论文发布(arXiv v1)**。微软-华盛顿大学团队在arXiv提交MEDEC论文,公开了上述参数估计。当时作者尚未特别强调这些数字的来源,仅在正文标注“≈”符号和简单注释。这一版本立即引起关注,不少研究者和开发者阅读论文时注意到了这些**罕见披露的模型规模**。\n\n- **2024年12月下旬:社区发现并讨论**。论文发布后几天内,Reddit等论坛上出现相关帖子。一篇在 r/LocalLLaMA 版的帖子标题即指出“微软新论文列出了多数封闭模型的规模”(附带论文链接)。讨论中,许多人惊讶于 GPT-4o-mini 只有8B参数,也有人质疑这些数字的真实性。一位用户引用论文中的说明提醒大家:“大多数参数量是估计值…所以不是真实的”。还有人调侃道:“现在我们在 Arxiv 上看到天气预报(意指预测性质的数据)”。总体而言,**社区对这些数字半信半疑**:既觉得来自微软的消息颇具分量,但又担心只是**估算而非官方** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=These%20numbers%20are%20all%20made,the%20parameters%20these%20models%20have)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Vivid_Dot_6405))。许多网友注意到论文紧跟参数列表后的声明,指出这些数字只是估计,批评一些夸张解读者“应当先读论文再议论” ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=%E2%80%A2))。不过也有观点认为,即便是猜测,微软研究员的**“教育性猜测”**可能是目前能得到的最接近真相的信息 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。\n\n- **2025年1月2日:论文更新(arXiv v2)及媒体报道**。作者在新年初更新了论文版本,**加入了脚注来源和更明确的免责声明**。同日,多家媒体开始报道此事。中国科技媒体 AIBase 发布文章称:“微软在医疗AI评估论文中再次‘意外’透露多家公司顶尖大模型的参数规模”。文中具体引用了 OpenAI 模型的参数值:o1-preview约300B、GPT-4o约200B、GPT-4o-mini仅8B,并指出这与 NVIDIA 此前声称的 GPT-4 采用1.76万亿参数 MoE 架构形成鲜明对比。该报道还提及微软去年10月也曾在论文中泄露 GPT-3.5-Turbo 参数(20B)并在更新时删除了该信息。印度媒体 Analytics India Magazine 则以《微软是否泄露了 OpenAI 的秘密?》为题报道,强调微软论文暗示了 OpenAI o1-mini 和 GPT-4o-mini 的参数量分别约为100B和8B ([Did Microsoft Spill the Secrets of OpenAI? - Ground News](https://ground.news/article/did-microsoft-spill-the-secrets-of-openai#:~:text=Did%20Microsoft%20Spill%20the%20Secrets,billion%20and%208%20billion)) ([Prakash Advani on X: \"Did Microsoft Spill the Secrets of OpenAI ...](https://x.com/prakashadvani/status/1875228770250190984#:~:text=Prakash%20Advani%20on%20X%3A%20,and%208%20billion%20parameters%2C))。此外,Medium 上也有分析文章(作者 Meng Li)对这一事件进行了解读。这篇文章强调 GPT-4o-mini 仅8B参数的消息在推特上引发了广泛讨论,同时再次列出了Claude 3.5 Sonnet(175B)、GPT-4 (1.76T)、GPT-4o (200B)、o1-preview (300B)等数据。由此可见,**进入2025年后,各路媒体与自媒体接力报道**,将此事推向更大范围的受众。\n\n- **2025年1月上旬:深度讨论与后续影响**。随着话题发酵,更多行业人士参与讨论。在推特/ X 平台上,不少 AI 从业者分享相关新闻和自己的看法。例如,有人猜测 GPT-4o-mini 可能通过 MoE 等技术实现高效,在小参数下发挥大模型作用;也有人感叹 OpenAI和微软在模型优化上投入之大,以及成本与性能的权衡。有趣的是,截至目前**OpenAI 官方并未对这些传闻做任何澄清或回应**,延续了一贯的保密作风。同时,这次“参数泄露”事件也让业内开始思考大模型参数与能力的关系:模型并非一味追求更大,有时更小的模型配合新架构和优质数据也能取得令人惊艳的效果(GPT-4o 系列即是例子)。从社区反馈看,很多人在得知GPT-4o-mini仅8B参数后,对其性能表现产生了新的评价和质疑,一些开发者表示难怪感觉新版模型**“变轻量了,但也变弱了”** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=older%20more%20expensive%20models%20because,cliche%27d%20phrases%20over%20and%20over)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=So%20good%20job%20on%20making,on%20par%20with%20it%20now))。这说明参数规模信息的披露影响了用户对模型性能的主观感受和选择。\n\n总的来看,本次事件经历了**论文发布—社区发酵—媒体报道—深入讨论**的过程。由于包含的信息关系到 OpenAI 最新一代模型的机密指标,引发的关注度远超一般学术论文。值得注意的是,**微软研究团队已非首次在论文中泄露 OpenAI 模型细节**:上一年就有类似前科(GPT-3.5 Turbo 参数)。因此有观点猜测微软此举或许**别有用意**。有人揣测,这可能是微软在试探公众反应,亦或是有意为之的营销策略(展示Azure/OpenAI模型的领先地位)。当然这仍属猜测,无法证实。但可以肯定的是,这类事件凸显了**研究出版和商业机密的边界模糊**:研究者为了学术讨论引用了未经证实的指标,却意外变相披露了机密,引发轩然大波。\n\n## 结论\n\n微软 MEDEC 论文泄露 OpenAI 模型参数量的事件,为我们提供了一次窥探**闭源大模型规模**的难得机会。在这篇医疗错误检测基准的论文中,作者罗列的参数规模成为焦点,甚至一度掩盖了论文本身的研究贡献。在分析中我们发现:\n\n- 论文的**旧版本确实包含模型参数细节**,新版本虽保留数据但加强了免责声明,显示作者意识到了信息敏感性但选择透明估计来源而非删除内容。\n- **泄露的参数量与此前行业传闻大体吻合**,尤其是GPT-4、GPT-3.5/Claude等的规模,增强了这些非官方信息的可信度。极端值如GPT-4o-mini 8B则引发质疑,提示我们应理性对待此类未证实数据。\n- 社区和媒体对此高度关注,既有热烈讨论也有审慎声音。部分网友截取论文原文佐证,也有人批评夸大解读。总体舆论在质疑与认可间反复 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=These%20numbers%20are%20all%20made,the%20parameters%20these%20models%20have)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。\n- 此事件延续了微软研究在论文中**“不小心”披露合作方模型内幕**的传统,引发关于**大模型透明度**的讨论。一方面,学术沟通需要上下文信息,另一方面,商业机密又要求谨慎。如何拿捏两者分寸,是未来类似合作研究需要注意的问题。\n\n展望未来,OpenAI 是否会针对这些猜测发布官方数据仍未可知。考虑到 OpenAI 长期以来对模型细节三缄其口,我们也许不会得到正面回应。不过,通过此次事件,行业对于 GPT-4 以及后续模型的规模和架构有了更清晰的认知轮廓。例如,**GPT-4 确认接近两万亿参数量级,使用 Mixture-of-Experts 的可能性极高**;而 **OpenAI 正在探索百亿级模型的新范式 (o1 系列)**,试图在参数规模和能力之间寻找新的平衡点。社区对此保持高度兴趣,相关话题仍在持续讨论中。\n\n最后,我们要强调,**大模型的参数规模只是衡量能力的一个维度**。正如MEDEC论文本身所研究的,在医疗这样的专业场景下,模型是否出错、能否纠正错误,比单纯的参数大小更加重要。此次参数泄露事件固然吸睛,但也提醒我们关注模型实际表现和应用价值。正如论文作者在结论中所言,尽管近期LLM在错误检测与纠正上表现不错,但仍未超越人类医师,。模型的规模增长终有瓶颈,与其一味追求参数堆砌,不如投入精力提高模型的**专业性、可靠性和可解释性**。这或许才是MEDEC论文想传达的更重要讯息。\n\n**参考来源:**\n\n- MEDEC 论文原文(arXiv:2412.19260)及版本变更说明  \n- 社区讨论(Reddit 论坛)对论文参数泄露的反应和观点 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=%E2%80%A2)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))  \n- 媒体报道和分析文章:AIbase 新闻、Followin/36Kr、Medium 专栏分析等  \n- 其他背景资料:SemiAnalysis 泄露的 GPT-4 架构报告、微软 Mark Russinovich 对小模型能力的讨论 ([What runs GPT-4o and Microsoft Copilot? | Largest AI supercomputer in the cloud | Mark Russinovich](https://techcommunity.microsoft.com/blog/microsoftmechanicsblog/what-runs-gpt-4o-and-microsoft-copilot--largest-ai-supercomputer-in-the-cloud--m/4150701#:~:text=services%2C%20but%20where%20this%20makes,Llama%2C%20Mistral%2C%20and%20many%20more)) ([What runs GPT-4o and Microsoft Copilot? | Largest AI supercomputer in the cloud | Mark Russinovich](https://techcommunity.microsoft.com/blog/microsoftmechanicsblog/what-runs-gpt-4o-and-microsoft-copilot--largest-ai-supercomputer-in-the-cloud--m/4150701#:~:text=match%20at%20L200%20Research,Runtime%20for%20inference%2C%20which%20makes))、OpenAI 新模型发布信息等。\n\n",
    "video_terms": "",
    "video_aspect": "16:9",
    "video_concat_mode": "random",
    "video_clip_duration": 3,
    "video_count": 1,
    "video_source": "pixabay",
    "video_materials": null,
    "video_language": "",
    "voice_name": "en-US-AnaNeural-Female",
    "voice_volume": 1.0,
    "voice_rate": 1.0,
    "bgm_type": "random",
    "bgm_file": "",
    "bgm_volume": 0.2,
    "subtitle_enabled": true,
    "subtitle_position": "bottom",
    "custom_position": 70.0,
    "font_name": "STHeitiMedium.ttc",
    "text_fore_color": "#FFFFFF",
    "text_background_color": "transparent",
    "font_size": 60,
    "stroke_color": "#000000",
    "stroke_width": 1.5,
    "n_threads": 2,
    "paragraph_number": 1
}

2025-04-11 22:33:00.378 | INFO     | app.services.task:start:210 - start task: 9a738fdd-00b9-48d1-9cfb-80b0b73a738b, stop_at: video

2025-04-11 22:33:00.378 | INFO     | app.services.task:generate_script:18 - 

## generating video script

2025-04-11 22:33:00.379 | DEBUG    | app.services.task:generate_script:27 - video script: 
# 微软 MEDEC 论文泄露 OpenAI 模型参数事件分析

微软和华盛顿大学团队在 2024 年 12 月 26 日发布了一篇论文《MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes》(简称 MEDEC),无意中披露了多个主流大型语言模型(LLM)的参数规模估计,包括 OpenAI 的 GPT-4、GPT-4o 及其 Mini 版本,以及新模型系列 “o1” 等。这一事件引发了业内对于 OpenAI 模型参数规模的热议和猜测。本文将围绕这一事件展开深入分析,包括论文的发布与修改情况、所泄露参数信息的可信度评估,以及社区和媒体对此的讨论与反应。

## 论文发布经过与版本变动

MEDEC 论文最初以预印本形式发布在 arXiv 平台(编号 arXiv:2412.19260)。**2024 年 12 月 26 日**,作者提交了第一个版本 (v1)。在该版本中,论文的第 5.1 节“Language Models”直接列出了多款最新大模型的参数量估计值,包括 GPT-4 系列和 o1 系列模型等(详见下文)。由于这些模型的准确参数规模 OpenAI 从未正式公开,这些信息相当于**间接“泄露”了 OpenAI 封闭模型的参数规模**,从而引发广泛关注。

**2025 年 1 月 2 日**,作者更新了论文版本 (v2)。更新后的论文依然保留了这些参数规模数据,但对措辞和引用做出了一些调整,以澄清这些数字的来源和可信度。例如,作者在参数列表后增加说明称:**“多数参数数量只是估计值,仅用于提供模型性能的背景参考”**。同时还附上脚注列出了信息来源链接(如 LifeArchitect、The Algorithmic Bridge、HashTechWave 等网站)。换言之,作者明确表示这些参数规模并非官方公布的数据,而是**从公开文章中收集的估计**。通过这些修改,论文作者并未删除相关参数信息,但强化了免责声明,以避免读者将其视作官方确认的模型规模。

截至目前(2025 年初),该论文**未被撤回或删减敏感信息**。相反,作者选择通过添加来源引用和声明的方式继续公开这些参数估计。这表明论文本身仍完整可访问,所涉模型参数信息在经过澄清后依然保留于文中 (arXiv v2)。下面将具体介绍论文中披露的模型参数详情。

## 泄露的模型参数详情

 ([A new Microsoft paper lists sizes for most of the closed models : r/LocalLLaMA](https://www.reddit.com/r/LocalLLaMA/comments/1hrb1hp/a_new_microsoft_paper_lists_sizes_for_most_of_the/))  
*图:MEDEC 论文第 5.1 节所列出的各模型及其参数量估计(摘自 arXiv 预印本)*

论文中列出的模型参数包括 OpenAI、Anthropic 以及 Google 的多款最近模型。表1汇总了主要相关模型及其参数规模(均为论文中给出的近似估计值),并注明其来源或背景:

| 模型                   | 论文披露的参数量 (估计)         | 备注说明                             |
|----------------------|--------------------------|----------------------------------|
| **GPT-4**            | ≈1.76 T 参数(约1.76万亿) | OpenAI 2023年推出的多模态模型,传闻采用Mixture-of-Experts架构,总参数规模在1.7万亿级别。论文引用将其称为“高智能”模型。 |
| **ChatGPT** (GPT-3.5)| ≈175 B 参数(约1750亿) | OpenAI 2023年推出的对话模型,约等同于 GPT-3.5 系列模型的规模。175B参数与众所周知的GPT-3模型规模相当。 |
| **Claude 3.5 Sonnet**| ≈175 B 参数(约1750亿) | Anthropic 于 2024 年推出的 Claude 3.5 系列最新模型 “Sonnet”,性能先进。其参数量与 GPT-3 相近,也与 ChatGPT 相当。这一点令一些网友惊讶,因相当于GPT-3 Davinci的规模。 |
| **Gemini 2.0 Flash** | (未公开)               | Google 最新的 Gemini 模型,具体参数未知。论文提及了 Google 另一医学模型 Med-PaLM (~540B 参数) 以作对比。 |
| **GPT-4o**           | ≈200 B 参数(约2000亿) | OpenAI 2024 年发布的新模型,标榜“达到 GPT-4 级智能但速度更快”。参数规模显著小于 GPT-4,据称为提升推理速度。 |
| **GPT-4o-mini**      | ≈8 B 参数(约80亿)   | OpenAI 于 2024 年推出的 GPT-4o 小型版 (型号 gpt-4o-2024-05-13),专注特定任务。仅有几亿参数的说法令人震惊,在业界属极小规模模型。这一数字引发争议,不少讨论推测其可能采用了 MoE 架构,**实际总参数或许更大但激活参数约为8B**。 |
| **o1-preview**       | ≈300 B 参数(约3000亿) | OpenAI 2024 年的新模型系列 “o1” 的预览版 (2024-09-12),据称具备“全新 AI 能力”,擅长复杂推理。这是一个尚未公开发布的前沿模型,参数规模据估计介于GPT-3.5与GPT-4o之间。 |
| **o1-mini**          | ≈100 B 参数(约1000亿) | OpenAI “o1” 系列的小型版本 (2024-09-12),定位类似 GPT-4o-mini 的廉价高效模型。规模约百亿级。 |

*表1:MEDEC 论文披露的各大型模型参数规模估计值(B=10<sup>9</sup>,T=10<sup>12</sup>)*

上述参数数据均直接摘自论文第5.1节**“Language Models”**中的描述列表。论文作者特别强调,这些**并非 OpenAI 官方公布的精确数值**,而是基于公开信息推断的近似值。他们列举了用于推断的资料来源,包括一些研究者博客和新闻文章。例如,GPT-4 参数≈1.76万亿的说法,与此前 SemiAnalysis 等渠道泄露的**“GPT-4 为8个子模型、总参数约1.8万亿”**的报告一致;而 GPT-4o-mini 仅8亿参数这一意外信息,在论文发布前并无可靠消息来源,可能是作者参考某些平台文档或传闻得出的结论。

值得注意的是,**论文中除了 OpenAI 模型,还披露了 Anthropic 和 Google 模型的一些信息**。比如 Claude 3.5 Sonnet 的参数约175B,与Anthropic未公开的数据相符;Google 的 Med-PaLM 提及为540B参数,对应先前Google公布的模型规模。但**OpenAI系列模型的参数一直是保密的商业机密**,因此论文将这些估计披露出来,被业界视作一次“侧面泄露”或“线索”。

## 参数泄露信息的真实性分析

**对于这些泄露参数的可信度,业内看法不一**。总体而言,这些数字与此前圈内推测的数量级大体吻合,但仍需谨慎解读:

- **GPT-4 (~1.76T)**:这一规模与多方传闻基本一致,最初由 Semafor 等媒体和专家(如 George Hotz)爆料。据传 GPT-4 采用 Mixture-of-Experts (MoE) 架构,由 8 个约220B参数的子模型组成,总参数约1.76万亿。NVIDIA 早些时候的一些演讲中也暗示过 GPT-4 可能在万亿级参数规模。因此,论文给出的≈1.76T **非常符合此前可靠传闻**,可信度较高。OpenAI 虽从未正式确认,但社区普遍接受 GPT-4 为**“万亿参数量级”**模型。

- **ChatGPT/GPT-3.5 (~175B)**:1750亿参数正是 GPT-3 (Davinci) 模型的已知规模,也对应了 ChatGPT 所基于的 GPT-3.5 系列规模。这个数字**并不令人意外**,同时也侧面印证 Anthropic Claude 3.5 Sonnet (~175B) 与 GPT-3.5 处于同一量级。因此可信度很高,属于公开常识范围。

- **GPT-4o (~200B)**:GPT-4o 是 OpenAI 于 2024 年推出的新模型,宣传能以更快速度提供接近 GPT-4 的智能。假设 OpenAI 为提升响应速度而缩小了模型规模,那么 2000 亿参数是**合理的猜测**。这一规模比 GPT-3.5(175B)略高、远小于 GPT-4(≈1.7T),符合其性能定位(优于GPT-3.5但不及GPT-4)。虽然 OpenAI官方未公布 GPT-4o 架构,但微软研究团队的估计**可能来自内部对比或可靠消息**,因而被认为具有一定可信度。一些业内观点认为,微软研究员做出的“教育性猜测”很可能接近事实 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。截至目前暂无相反证据质疑这个数字。

- **GPT-4o-mini (~8B)**:这个数字引发最多争议。**8 亿参数对于号称具备 GPT-4 级别能力的小模型来说几乎不可思议**。即使通过高质量训练和蒸馏,小小的8B模型也难以达到 GPT-4o 所宣称的性能。社区对此提出两种主要看法:其一,认为**8B是激活参数而总参数更多**,即 GPT-4o-mini 可能采用 MoE 架构,例如总参数规模或许在数十亿(有猜测约40B)但每次推断仅用到8B。这种设计能解释为何一个“8B模型”表现超出常规8B模型水平。另一种看法则认为**8B可能就是指模型的实际总参数**,但持怀疑态度,认为如此之小的模型不太可能达到预期能力 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Perhaps%2C%20but%20there%20are%20other,performance%20out%20of%20small%20models))。有人指出 Google 的类似小模型 Gemini 1.5 Flash-8B 的性能尚不及 GPT-4o-mini,可见若非有特殊架构优化,8B参数显得**过低** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Perhaps%2C%20but%20there%20are%20other,performance%20out%20of%20small%20models))。综上,GPT-4o-mini 的参数规模真实性存疑,**更倾向于是作者基于有限线索做出的粗略估计**。除非 OpenAI 将来公开详情,否则该数字暂不能被视作确凿。

- **o1-preview (300B) / o1-mini (100B)**:OpenAI 的 “o1” 系列是2024年下半年出现的新代号,据猜测可能是下一代基础模型或架构革新的尝试。由于尚未正式发布,外界对其所知甚少。论文给出的 3000亿和1000亿参数,很可能参考了独立研究者的推测(例如 LifeArchitect 博客)。这个级别在逻辑上说得通:OpenAI 可能在 GPT-4 (≈1T+) 和 GPT-3.5 (175B) 之间开发中等规模模型,以融合新能力和效率。**100B 和 300B 参数的猜测目前无更可靠信息佐证,但在数百亿到千亿这个范围**属于合理假设。有业内消息称,OpenAI 的 O系列模型代号“Arrakis/Gobi”等,可能采用更高效架构实现较高智能,此情况下参数量未必需要上万亿。总之,对于 o1 系列,论文提供了难得的线索,但其真实性**仍需后续验证**。考虑到这些数据只是来自网络信息挖掘,不能排除误差甚至错误的可能。

- **Claude 3.5 Sonnet (175B)**:Anthropic 并未公开 Claude 3.5 的参数量,但 175B 完全符合预期(Claude 2 代模型据传即在百亿量级)。Claude 3.5 表现强劲,和 GPT-3.5 同规模也在情理之中。Anthropic 官方曾暗示 Claude 2 系列参数接近 GPT-3 量级,故175B很可能是正确的。这个数据可信度较高。

总的来说,**论文泄露的参数量信息大部分与此前业内推测相符**,在合理范围内。其中 GPT-4≈1.7T 及Claude≈175B等几项几乎可以被视为非官方的“公开秘密”。而 GPT-4o-mini 8B和 o1系列参数等则**缺乏独立权威来源**,需要持保留态度。论文作者也一再提醒读者,这些数字仅供上下文参考,并不保证准确。正如一位网友所言:“研究人员对这些参数的了解并不比其他懂行的工程师更多” ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Vivid_Dot_6405))——换言之,我们应将其视为**有依据的猜测**,而非最终定论。

## 社区与媒体反应

该事件很快在学术和科技社区引发热议。从社交媒体到科技新闻,围绕 OpenAI 模型参数的讨论此起彼伏。以下是本次泄露事件的时间线及各方反应概述:

- **2024年12月26日:论文发布(arXiv v1)**。微软-华盛顿大学团队在arXiv提交MEDEC论文,公开了上述参数估计。当时作者尚未特别强调这些数字的来源,仅在正文标注“≈”符号和简单注释。这一版本立即引起关注,不少研究者和开发者阅读论文时注意到了这些**罕见披露的模型规模**。

- **2024年12月下旬:社区发现并讨论**。论文发布后几天内,Reddit等论坛上出现相关帖子。一篇在 r/LocalLLaMA 版的帖子标题即指出“微软新论文列出了多数封闭模型的规模”(附带论文链接)。讨论中,许多人惊讶于 GPT-4o-mini 只有8B参数,也有人质疑这些数字的真实性。一位用户引用论文中的说明提醒大家:“大多数参数量是估计值…所以不是真实的”。还有人调侃道:“现在我们在 Arxiv 上看到天气预报(意指预测性质的数据)”。总体而言,**社区对这些数字半信半疑**:既觉得来自微软的消息颇具分量,但又担心只是**估算而非官方** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=These%20numbers%20are%20all%20made,the%20parameters%20these%20models%20have)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Vivid_Dot_6405))。许多网友注意到论文紧跟参数列表后的声明,指出这些数字只是估计,批评一些夸张解读者“应当先读论文再议论” ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=%E2%80%A2))。不过也有观点认为,即便是猜测,微软研究员的**“教育性猜测”**可能是目前能得到的最接近真相的信息 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。

- **2025年1月2日:论文更新(arXiv v2)及媒体报道**。作者在新年初更新了论文版本,**加入了脚注来源和更明确的免责声明**。同日,多家媒体开始报道此事。中国科技媒体 AIBase 发布文章称:“微软在医疗AI评估论文中再次‘意外’透露多家公司顶尖大模型的参数规模”。文中具体引用了 OpenAI 模型的参数值:o1-preview约300B、GPT-4o约200B、GPT-4o-mini仅8B,并指出这与 NVIDIA 此前声称的 GPT-4 采用1.76万亿参数 MoE 架构形成鲜明对比。该报道还提及微软去年10月也曾在论文中泄露 GPT-3.5-Turbo 参数(20B)并在更新时删除了该信息。印度媒体 Analytics India Magazine 则以《微软是否泄露了 OpenAI 的秘密?》为题报道,强调微软论文暗示了 OpenAI o1-mini 和 GPT-4o-mini 的参数量分别约为100B和8B ([Did Microsoft Spill the Secrets of OpenAI? - Ground News](https://ground.news/article/did-microsoft-spill-the-secrets-of-openai#:~:text=Did%20Microsoft%20Spill%20the%20Secrets,billion%20and%208%20billion)) ([Prakash Advani on X: "Did Microsoft Spill the Secrets of OpenAI ...](https://x.com/prakashadvani/status/1875228770250190984#:~:text=Prakash%20Advani%20on%20X%3A%20,and%208%20billion%20parameters%2C))。此外,Medium 上也有分析文章(作者 Meng Li)对这一事件进行了解读。这篇文章强调 GPT-4o-mini 仅8B参数的消息在推特上引发了广泛讨论,同时再次列出了Claude 3.5 Sonnet(175B)、GPT-4 (1.76T)、GPT-4o (200B)、o1-preview (300B)等数据。由此可见,**进入2025年后,各路媒体与自媒体接力报道**,将此事推向更大范围的受众。

- **2025年1月上旬:深度讨论与后续影响**。随着话题发酵,更多行业人士参与讨论。在推特/ X 平台上,不少 AI 从业者分享相关新闻和自己的看法。例如,有人猜测 GPT-4o-mini 可能通过 MoE 等技术实现高效,在小参数下发挥大模型作用;也有人感叹 OpenAI和微软在模型优化上投入之大,以及成本与性能的权衡。有趣的是,截至目前**OpenAI 官方并未对这些传闻做任何澄清或回应**,延续了一贯的保密作风。同时,这次“参数泄露”事件也让业内开始思考大模型参数与能力的关系:模型并非一味追求更大,有时更小的模型配合新架构和优质数据也能取得令人惊艳的效果(GPT-4o 系列即是例子)。从社区反馈看,很多人在得知GPT-4o-mini仅8B参数后,对其性能表现产生了新的评价和质疑,一些开发者表示难怪感觉新版模型**“变轻量了,但也变弱了”** ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=older%20more%20expensive%20models%20because,cliche%27d%20phrases%20over%20and%20over)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=So%20good%20job%20on%20making,on%20par%20with%20it%20now))。这说明参数规模信息的披露影响了用户对模型性能的主观感受和选择。

总的来看,本次事件经历了**论文发布—社区发酵—媒体报道—深入讨论**的过程。由于包含的信息关系到 OpenAI 最新一代模型的机密指标,引发的关注度远超一般学术论文。值得注意的是,**微软研究团队已非首次在论文中泄露 OpenAI 模型细节**:上一年就有类似前科(GPT-3.5 Turbo 参数)。因此有观点猜测微软此举或许**别有用意**。有人揣测,这可能是微软在试探公众反应,亦或是有意为之的营销策略(展示Azure/OpenAI模型的领先地位)。当然这仍属猜测,无法证实。但可以肯定的是,这类事件凸显了**研究出版和商业机密的边界模糊**:研究者为了学术讨论引用了未经证实的指标,却意外变相披露了机密,引发轩然大波。

## 结论

微软 MEDEC 论文泄露 OpenAI 模型参数量的事件,为我们提供了一次窥探**闭源大模型规模**的难得机会。在这篇医疗错误检测基准的论文中,作者罗列的参数规模成为焦点,甚至一度掩盖了论文本身的研究贡献。在分析中我们发现:

- 论文的**旧版本确实包含模型参数细节**,新版本虽保留数据但加强了免责声明,显示作者意识到了信息敏感性但选择透明估计来源而非删除内容。
- **泄露的参数量与此前行业传闻大体吻合**,尤其是GPT-4、GPT-3.5/Claude等的规模,增强了这些非官方信息的可信度。极端值如GPT-4o-mini 8B则引发质疑,提示我们应理性对待此类未证实数据。
- 社区和媒体对此高度关注,既有热烈讨论也有审慎声音。部分网友截取论文原文佐证,也有人批评夸大解读。总体舆论在质疑与认可间反复 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=These%20numbers%20are%20all%20made,the%20parameters%20these%20models%20have)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))。
- 此事件延续了微软研究在论文中**“不小心”披露合作方模型内幕**的传统,引发关于**大模型透明度**的讨论。一方面,学术沟通需要上下文信息,另一方面,商业机密又要求谨慎。如何拿捏两者分寸,是未来类似合作研究需要注意的问题。

展望未来,OpenAI 是否会针对这些猜测发布官方数据仍未可知。考虑到 OpenAI 长期以来对模型细节三缄其口,我们也许不会得到正面回应。不过,通过此次事件,行业对于 GPT-4 以及后续模型的规模和架构有了更清晰的认知轮廓。例如,**GPT-4 确认接近两万亿参数量级,使用 Mixture-of-Experts 的可能性极高**;而 **OpenAI 正在探索百亿级模型的新范式 (o1 系列)**,试图在参数规模和能力之间寻找新的平衡点。社区对此保持高度兴趣,相关话题仍在持续讨论中。

最后,我们要强调,**大模型的参数规模只是衡量能力的一个维度**。正如MEDEC论文本身所研究的,在医疗这样的专业场景下,模型是否出错、能否纠正错误,比单纯的参数大小更加重要。此次参数泄露事件固然吸睛,但也提醒我们关注模型实际表现和应用价值。正如论文作者在结论中所言,尽管近期LLM在错误检测与纠正上表现不错,但仍未超越人类医师,。模型的规模增长终有瓶颈,与其一味追求参数堆砌,不如投入精力提高模型的**专业性、可靠性和可解释性**。这或许才是MEDEC论文想传达的更重要讯息。

**参考来源:**

- MEDEC 论文原文(arXiv:2412.19260)及版本变更说明  
- 社区讨论(Reddit 论坛)对论文参数泄露的反应和观点 ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=%E2%80%A2)) ([All recent models are significantly smaller than original GPT-4 : r/singularity](https://www.reddit.com/r/singularity/comments/1hr8p6d/all_recent_models_are_significantly_smaller_than/#:~:text=Top%201))  
- 媒体报道和分析文章:AIbase 新闻、Followin/36Kr、Medium 专栏分析等  
- 其他背景资料:SemiAnalysis 泄露的 GPT-4 架构报告、微软 Mark Russinovich 对小模型能力的讨论 ([What runs GPT-4o and Microsoft Copilot? | Largest AI supercomputer in the cloud | Mark Russinovich](https://techcommunity.microsoft.com/blog/microsoftmechanicsblog/what-runs-gpt-4o-and-microsoft-copilot--largest-ai-supercomputer-in-the-cloud--m/4150701#:~:text=services%2C%20but%20where%20this%20makes,Llama%2C%20Mistral%2C%20and%20many%20more)) ([What runs GPT-4o and Microsoft Copilot? | Largest AI supercomputer in the cloud | Mark Russinovich](https://techcommunity.microsoft.com/blog/microsoftmechanicsblog/what-runs-gpt-4o-and-microsoft-copilot--largest-ai-supercomputer-in-the-cloud--m/4150701#:~:text=match%20at%20L200%20Research,Runtime%20for%20inference%2C%20which%20makes))、OpenAI 新模型发布信息等。

2025-04-11 22:33:00.379 | INFO     | app.services.task:generate_terms:38 - 

## generating video terms

2025-04-11 22:33:00.380 | INFO     | app.services.llm:generate_terms:354 - subject: OpenAI泄露的模型参数

2025-04-11 22:33:00.380 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.381 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.383 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 1

2025-04-11 22:33:00.383 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.384 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.385 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 2

2025-04-11 22:33:00.385 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.386 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.386 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 3

2025-04-11 22:33:00.387 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.388 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.389 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 4

2025-04-11 22:33:00.389 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.390 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.391 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 5

2025-04-11 22:33:00.392 | SUCCESS  | app.services.llm:generate_terms:384 - completed: 
[]

2025-04-11 22:33:00.393 | ERROR    | app.services.task:generate_terms:56 - failed to generate video terms.

2025-04-11 22:33:00.395 | ERROR    | __main__:<module>:790 - Video Generation Failed

Python 版本

doker部署

操作系统

arch linux

MoneyPrinterTurbo 版本

apr11 2025

其他信息

No response

@Felix3322 Felix3322 added the bug Something isn't working label Apr 11, 2025
@ChinaCarlos
Copy link

llm_provider = "deepseek"

@Felix3322
Copy link
Contributor Author

llm_provider = "deepseek"

我填的就是这个,报错

@Felix3322
Copy link
Contributor Author

llm_provider = "deepseek"

@ChinaCarlos


2025-04-11 22:33:00.383 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 1

2025-04-11 22:33:00.383 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.384 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.385 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 2

2025-04-11 22:33:00.385 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.386 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.386 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 3

2025-04-11 22:33:00.387 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.388 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.389 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 4

2025-04-11 22:33:00.389 | INFO     | app.services.llm:_generate_response:18 - llm provider: deepseek

2025-04-11 22:33:00.390 | WARNING  | app.services.llm:generate_terms:369 - failed to generate video terms: Client.__init__() got an unexpected keyword argument 'proxies'

2025-04-11 22:33:00.391 | WARNING  | app.services.llm:generate_terms:382 - failed to generate video terms, trying again... 5

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants