三位美国企业工程师加入DeepSeek,美国专家称美国已留不下人才了

三位美国企业工程师加入DeepSeek,美国专家称美国已留不下人才了

文章图片

三位美国企业工程师加入DeepSeek,美国专家称美国已留不下人才了

文章图片

三位美国企业工程师加入DeepSeek,美国专家称美国已留不下人才了

文章图片

三位美国企业工程师加入DeepSeek,美国专家称美国已留不下人才了

文章图片

前沿导读据公开信息显示 , 在中国ai公司DeepSeek团队中 , 有三位工程师曾经在美国的英伟达、微软等巨头企业工作过 。 但是由于自身的原因 , 都在后来的发展中选择回国任职 , 加入了DeepSeek团队 , 并且成功开发出了V3、R1两款关键的大模型技术 。
推动中国技术发展这三位工程师分别是潘梓正、邵智宏、赵成钢 , 其中潘梓正和赵成钢分别在英伟达总部以及中国分公司工作过 , 邵智宏则是有过在微软研究院任职的经历 。
潘梓正的学术和职业生涯始于中国 , 他本科毕业于哈尔滨工业大学(威海)软件工程专业 , 后赴澳大利亚阿德莱德大学攻读计算机科学硕士学位 , 2021年在蒙纳士大学攻读博士 。
2023年 , 他加入了英伟达工作 , 在ai算法组担任实习生 。 在实习期间 , 他主要研究深度神经网络的效率优化 , 包括模型部署、Transformer架构优化、注意力机制、推理加速和内存高效的训练 。 他的工作得到了英伟达的认可 , 最终获得了全职工作邀请 。

【三位美国企业工程师加入DeepSeek,美国专家称美国已留不下人才了】英伟达的工作虽然据相关人员透露压力很大 , 一星期工作7天以及晚上加班都是家常便饭 , 但是整体的收入很高 。
据Payscale的数据显示 , 英伟达员工的平均年薪为142087美元 。 而英伟达员工的中位数总薪酬为231197美元 。 在公司的整体薪酬范围当中 , 英伟达员工的薪酬大多在227000美元到730000美元之间 , 平均薪酬为298000美元 。
这个收入水平 , 不要说放在国内了 , 哪怕是放在美国的其他500强公司当中 , 都是属于相当高的资产收入了 。
甚至英伟达公司创始人兼CEO的黄仁勋 , 他的个人资产已经超过了英特尔公司的市值 , 这一切都是建立在人工智能大爆发的背景下 。

虽然英伟达的高薪工作让很多技术人员眼馋 , 但是潘梓正在权衡利弊之后 , 他选择放弃英伟达公司提供的正式工作 , 回国加入了当时还未发展起来的DeepSeek公司 , 成为了该公司多模态团队的第四位工程师 。
潘梓正的导师 , 同时也是英伟达高级研究员的禹之鼎对此进行了评价 , 他觉得潘梓正的做法让人震惊 , 并且给他留下了深刻印象 , 也让他对中国ai领域的发展产生了极大的关注度 。

能成为英伟达公司的正式员工 , 这本身就是对潘梓正个人实力的认可 。
在加入了DeepSeek之后 , 潘梓正与团队的人员陆续开发了DeepSeek-VL2、DeepSeek-V3和DeepSeek-R1等多个关键的技术项目 。
在DeepSeek-VL2项目中 , 他主导了多模态融合技术的研发 , 可以有效的提升视觉和语言任务的性能效果 。
这是一种动态分块视觉编码策略 , 能够高效处理不同长宽比的高分辨率图像 。 这种策略通过将图像分割成多个小块 , 分别提取特征后再进行整合 , 从而在保持高分辨率图像细节的同时 , 显著降低了计算成本 。
并且DeepSeek-VL2采用了基于MoE的语言模型架构 , 结合多头潜在注意力机制(MLA) , 将键值缓存压缩为潜在向量 , 从而实现高效推理和高吞吐量 。 MoE架构允许模型在推理时只激活部分参数 , 从而在保持高性能的同时 , 显著降低了计算资源的消耗 。

DeepSeek-VL2使用了800B+规模的视觉-语言数据进行预训练 , 增强了模型的泛化能力 。 这种大规模数据训练策略使得模型在多种多模态任务中表现出色 , 尤其是在视觉问答(VQA)、光学字符识别(OCR)、文档理解等任务中
潘梓正的技术开发工作 , 不仅推动了DeepSeek的技术进步 , 还帮助中国公司在全球AI领域取得了显著成就 。
美国哈佛大学教授艾利森认为 , 美国未能为潘梓正提供公平的发展机会 , 这是导致人才流失的重要因素 。

赵成钢曾经在英伟达的北京分公司有过8个月的实习期 , 主要负责高性能计算和深度学习框架的优化工作 。 在加入了DeepSeek之后 , 他利用曾经从英伟达公司学习来的经验 , 担任训练/推理基础架构工程师 , 负责对ai大模型进行优化工作 。
赵成钢优化了DeepSeek的训练框架 , 通过引入pipeline parallelism、tensor parallelism和expert parallelism等技术 , 显著提高了模型训练的效率 。 这些技术的产出 , 使得DeepSeek能够在大规模数据集上高效地训练复杂的多模态模型 。

他还开发了高效的推理引擎 , 使得DeepSeek的模型能够在单机单卡(如10GB、40GB、80GB GPU)上快速运行 , 这种优化对于实际应用中的低延迟需求至关重要 。
而邵智宏在微软研究院主要负责自然语言处理(NLP)和深度学习领域 , 他参与了多个与对话系统、文本生成和强化学习相关的项目 。

在加入了DeepSeek团队后 , 他成为了DeepSeek-Math项目的核心作者之一 。
该项目提出了GRPO(Group Relative Policy Optimization)算法 , 这是一种强化学习算法的变体 , 通过放弃传统的critic模型 , 从群体得分中估算baseline , 显著减少了训练资源的需求 。 GRPO算法不仅在DeepSeek-Math中取得了成功 , 还被其他顶尖模型(如阿里Qwen 2.5)采纳 。
邵智宏也是DeepSeek-R1的核心工程师之一 , DeepSeek-R1项目通过强化学习激励大模型的推理能力 , 进一步提升了模型在复杂任务中的表现 。 他在该项目中继续深化对强化学习算法的研究 , 探索如何通过优化算法提升模型的推理和决策能力 。
美国的人才流失由于美国近年来移民政策的改变 , 这使得许多外国AI人才在获得博士学位后选择离开美国 。
2022年 , 有大约77%的非美国AI技术工程师 , 在获得美国博士学位后选择留在美国 , 这一比例较2020年的86%有所下降 。 此外 , 最高法院还推翻了《切弗伦诉NRDC》案的裁决 , 这可能会在未来几年内对移民案件产生重大影响 , 进一步复杂化法律环境 , 导致处理延迟和积压 。
再加上现在国际ai行业的大爆发 , 更加导致了相关产业对于高技术人才的渴望 。
2023年 , 美国本土有600多万个与ai相关的工作岗位 。 预计到2034年 , 这个数据将会增加到710万 。 这种需求的快速增长使得AI人才在全球范围内更具吸引力 , 而不仅仅是美国 。 同时 , 美国大公司(如谷歌、微软等)对AI人才的激烈竞争也导致了人才的分散 。
为了储备AI领域的技术人才 , 中国在多年前就已经针对于AI技术教育进行了大力度的支持 。
在2017年 , 我们宣布预计到2030年阶段 , 让中国的AI技术成为世界前列水平 。 这一目标推动了中国在AI教育和人才培养方面的大量投资 。 2022年 , 中国教育部已批准440所大学开设AI本科专业 。 此外 , 中国还通过国家工程实验室等项目培养了数千名AI专家 。

尽管目前的美国企业依然是全球AI技术的领导者 , 但其市场份额正在下降 。 2022年 , 中国几乎占据了全球顶尖AI研究人员的近一半(47%) , 其中有28%的科研人员选择在中国工作 。 相比之下 , 美国仅占全球顶尖AI研究人员的18% 。
除此之外 , 中国的科技企业 , 例如阿里巴巴、腾讯、字节跳动、华为以及新入局的DeepSeek等企业 , 都在大力度推动AI技术的发展 。 通过提供高于行业平均水平的薪资待遇、灵活的工作安排等方法 , 来吸纳更多的年轻人加入到AI技术的开发当中 。

    推荐阅读