周鸿祎谈DeepSeek:开启AI产业的“iPhone”时刻
作者头像
  • 庐陵子村
  • 2025-02-09 10:14:45 409

导读:

春节前后,全球热议的话题莫过于DeepSeek。DeepSeek是一家成立于2023年7月的公司,由幻方量化基金的联合创始人梁文峰创办,专注于大语言模型(LLM)及其相关技术的研发。2025年1月20日,DeepSeek发布了R1模型,并同步开源了模型权重。

DeepSeek的崛起

春节前后,全球最热门的话题非DeepSeek莫属。DeepSeek全称杭州深度求索人工智能基础技术研究有限公司,由梁文峰创立,专注于大语言模型(LLM)及其相关技术的深度研发。2025年1月20日,DeepSeek正式发布R1模型,并同步开源了模型权重。该模型因其性能接近OpenAI o1正式版,迅速获得用户青睐。1月27日,DeepSeek应用登顶苹果中国地区和美国地区的免费应用下载排行榜,在美国区下载榜上超越了ChatGPT。

技术创新与颠覆性

DeepSeek在短时间内迅速登上模型下载排行榜和应用下载排行榜榜首。许多用户试用后对其实际效果感到惊喜,并纷纷搭建自己的优化模型部署。这引发了市场对大模型高资本投入模式的质疑,以及对人工智能行业发展路径的思考。

技术优势

DeepSeek展示了两大技术优势。首先,它颠覆了传统的推理认知技术革命,使AI从被动学习进化到主动思考。其次,强化学习策略降低了无效训练60%,减少了高强度计算需求40%。DeepSeek-R1的推理成本仅为OpenAI o1的3%到5%,实现了性能与成本的双重突破。

这意味着中国正在用更聪明的算法打破大模型发展路径上的瓶颈,就像当年用手工计算出原子弹的公式一样,今天用数学智慧化解了芯片算力的围剿。

“国运级别”的科技成果

DeepSeek引起了全球轰动,展示了中国在AI领域的创新和自信。它不仅推动了大模型的广泛应用,还为中国在AI领域实现历史性跨越提供了契机。DeepSeek的成功标志着大模型真正迎来了大规模商用的技术拐点。

争议焦点:模型蒸馏与开源技术

近期,一些研究团队声称通过蒸馏法以极低成本训练出了可以媲美DeepSeek-R1的模型。周鸿解释说,模型蒸馏是一种常见的训练方法,目的是构造资源高效且性能优异的小模型。OpenAI声称DeepSeek偷窃其思维链数据的说法是错误的,因为DeepSeek依靠自己的强化学习,走出了与OpenAI完全不同的技术路线。

开源革命的影响

DeepSeek-R1不仅开放了所有权重参数,还公开了详尽的技术报告,这相当于把知识分享给了整个AI产业和全人类。开源模型使用和鼓励全球开发者社区共同参与贡献代码和数据,使得大模型生态社区中的Hugging Face平台出现了数百个基于DeepSeek派生的模型。

安全与挑战

随着AI深度融入生活,技术的稳定性和韧性变得至关重要。DeepSeek曾遭受大规模DDOS攻击,反映出美国对其崛起的担忧。在这个历史时刻,周鸿呼吁国内同行应支持DeepSeek,360也推出了相应的支持措施,包括提供全方位安全保护和集成DeepSeek模型的纳米AI搜索。

结语

DeepSeek的成功不仅验证了Transformer加强化学习路线的有效性,还通过开源模式打破了头部模型的技术封闭,降低了技术门槛,加速了大模型商业化的进程。

    本文来源:互联网
责任编辑: : 庐陵子村
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
周鸿开启DeepSeek时刻产业iPhone
    下一篇