5月15日,量化私募念空科技向国际顶会NIPS(Neural Information Processing Systems,神经信息处理系统大会)投递了与上海交大计算机学院合作的大模型研究论文,有业内人士认为,这是中国量化机构首次在AI基础研究领域挑战全球顶级学术舞台,标志着中国金融科技不止于“应用落地”,还具备“底层创新”能力。
(图片来源:论文截图)
大模型底层理论获突破
据了解,念空科技成立于2015年,是市场上较早将AI应用于金融领域的量化私募,机器学习应用的数据范围从期货到股票,不断地拟合、尝试。2019年,几乎全部转向神经网络算法,2020年起,念空科技在此基础上搭建全流程投研平台,次年管理规模已突破百亿元。
事实上,2021年起,量化私募在几家知名机构的引领下,越发被市场所熟知,实现从0到1的质变,AI模型与算力竞争正重塑着行业。
2023年,OpenAI的ChatGPT横空出世,在念空科技创始人王啸看来,与传统机器学习和深度学习算法对金融数据进行拟合不同,大模型对下一个token的预测本质上是一个自回归问题,大模型的出现提供了量化行业一个全新的算法工具。但ChatGPT的问题是使用成本较高,且使用权限较低,很难进行大规模训练。
今年,DeepSeek因其开源的特征打破多种限制,实现“智能平权”,同时让世人看到强化学习对大模型的推理能力至关重要。此前,DeepSeek将整个训练过程被分成监督微调(sft)—强化学习(rl)—监督微调(sft)—强化学习(rl)四个过程,像是集中一段时间学习刷题(sft),在集中一段时间参加考试对考试结果进行思考总结(rl)。
念空科技所递交的念空大模型论文的突破性成果在于,从人类的学习方法的经验得到启发,如果高频的在少量刷题和小测试经验总结之间切换,可能更有利于学习成绩(推理能力)的提高,故设计了一种step by step切换sft和rl的训练方法,在下一个step训练之前根据设计的自适应的算法决定下一个step用sft还是rl,最终实验发现,在三个不同的公开数据集上,念空科技提出的新的训练框架明显优于单独的sft、单独的rl以及简单混合sft和rl,证明提出的新的框架是当下更优的后训练方式。通俗的说,念空的研究成果可以帮助大模型在同等训练量下变得更聪明。
(图片来源:论文截图)
不断探索AI技术边界
为了具体问题的技术研究和模型优化,王啸在2025年成立了AllMind,专注于研究通用大语言模型(LLM)相关底层算法和工程技术。
据介绍,AllMind,全称为“上海全频思维人工智能科技有限公司”,简称“全频思维”,是由一家量化私募孵化的在大模型领域产出真正研究成果团队。AllMind致力于探索人工智能的前沿课题,主要研究方向为大模型底层技术研究和不限于金融场景的垂直应用。
与念空科技主攻金融垂直场景不同,AllMind的定位为高质量CoT数据生产方向的学术探索,包括大模型通用领域的研究工作也有金融场景的垂直应用,希望在AI的基础研究有所突破从而辐射到包括金融在内的更多领域,为业务提供更多的可能性和想象空间。
此外,据介绍,念空是量化私募基金,盈利企业,而AllMind更着眼于大模型的基础学术研究和应用,短期内并不以盈利为目的,且两家公司工作内容完全不同。
国际AI格局有望重构
优秀的个人只能决定你的下限,而优秀的团队才能决定你的上限,尤其是对于量化投资这种环节众多、严谨的投研模式来说,团队合作显得尤为重要。在该投研体系下,念空科技的研究部门可以专心做研究工作,技术部门专心做IT工作,每个人都在自己的岗位上做深做细,共同推进整个公司研发能力。
值得一提的是,与一般的金融机构招聘不同,量化投资的门槛往往较高,通常是数学、统计学、金融学、计算机技术的结合,通过挖掘海量数据、寻找规律、作出预测,并使用这个规律进行自动的计算和决策,需要克服人性弱点。
对于核心人才的选择,念空科技更愿意从零开始培养,公司团队70%—80%的AI工程师都是从高校实习生或是应届生招进来,在几个月的时间里,他们会使用公司的体系、规则,公司逐步就能判断这个人是否适合念空科技。
DeepSeek的开源让大模型技术突破西方封锁,让“智能平权”。此次,念空科技与上海交大计算机学院合作的大模型研究论文,让念空科技用实际行动再次证明量化团队对AI算法的长期积累,具备大模型孵化器的能力,可以在AI领域贡献一份力量,更多的量化团队加入大模型的理论研究有助于提升中国在国际AI领域的话语权,也能为中国AI产业在全球竞争中赢得优势奠定坚实的基础。
未来,随着念空科技持续加大在AI基础研究与应用开发的投入,其在社会价值创造与国际科技竞争中的表现值得期待。念空科技正以创新为驱动,引领中国量化投资与AI技术走向更加辉煌的未来。(CIS)
校对:冉燕青