周鸿祎谈DeepSeek：开启AI产业的“iPhone”时刻

庐陵子村
2025-02-09 10:14:45 409

导读：

春节前后，全球热议的话题莫过于DeepSeek。DeepSeek是一家成立于2023年7月的公司，由幻方量化基金的联合创始人梁文峰创办，专注于大语言模型（LLM）及其相关技术的研发。2025年1月20日，DeepSeek发布了R1模型，并同步开源了模型权重。

DeepSeek的崛起

春节前后，全球最热门的话题非DeepSeek莫属。DeepSeek全称杭州深度求索人工智能基础技术研究有限公司，由梁文峰创立，专注于大语言模型（LLM）及其相关技术的深度研发。2025年1月20日，DeepSeek正式发布R1模型，并同步开源了模型权重。该模型因其性能接近OpenAI o1正式版，迅速获得用户青睐。1月27日，DeepSeek应用登顶苹果中国地区和美国地区的免费应用下载排行榜，在美国区下载榜上超越了ChatGPT。

技术创新与颠覆性

DeepSeek在短时间内迅速登上模型下载排行榜和应用下载排行榜榜首。许多用户试用后对其实际效果感到惊喜，并纷纷搭建自己的优化模型部署。这引发了市场对大模型高资本投入模式的质疑，以及对人工智能行业发展路径的思考。

技术优势

DeepSeek展示了两大技术优势。首先，它颠覆了传统的推理认知技术革命，使AI从被动学习进化到主动思考。其次，强化学习策略降低了无效训练60%，减少了高强度计算需求40%。DeepSeek-R1的推理成本仅为OpenAI o1的3%到5%，实现了性能与成本的双重突破。

这意味着中国正在用更聪明的算法打破大模型发展路径上的瓶颈，就像当年用手工计算出原子弹的公式一样，今天用数学智慧化解了芯片算力的围剿。

“国运级别”的科技成果

DeepSeek引起了全球轰动，展示了中国在AI领域的创新和自信。它不仅推动了大模型的广泛应用，还为中国在AI领域实现历史性跨越提供了契机。DeepSeek的成功标志着大模型真正迎来了大规模商用的技术拐点。

争议焦点：模型蒸馏与开源技术

近期，一些研究团队声称通过蒸馏法以极低成本训练出了可以媲美DeepSeek-R1的模型。周鸿解释说，模型蒸馏是一种常见的训练方法，目的是构造资源高效且性能优异的小模型。OpenAI声称DeepSeek偷窃其思维链数据的说法是错误的，因为DeepSeek依靠自己的强化学习，走出了与OpenAI完全不同的技术路线。