跳到主要内容

单次实盘能证明什么?谈投资研究中的证据层级

本文仅用于教育与研究,不构成投资建议。文中数据/案例仅用于说明方法与风险,可能省略交易成本与个体差异。


🎭 一个常见的争论

你在某投资论坛看到一条帖子:

"我用XX策略实盘跑了8个月,赚了47%。事实证明,这个策略就是好。"

评论区立刻分成两派:

正方:"人家都实盘赚钱了,你还要怎样?"

反方:"8个月太短,可能只是运气好。"

正方反驳:"实盘赚钱是最硬的证据。你说运气好?那你拿出你的实盘来比啊。"

讨论到这里就卡住了。因为双方都在用直觉辩论,没有一个评估证据质量的框架。

问题不在于"这个人是否真的赚了47%"——这很可能是真的。问题在于:这个事实能"证明"什么?


🧠 核心洞察:单条路径 vs 概率分布

你看到的是"一条路径"

想象一下,100个人在同一天开始执行同一个策略。8个月后:

  • 15人赚了40%以上
  • 30人赚了10%-30%
  • 25人在盈亏线附近
  • 20人亏了10%-20%
  • 10人亏了20%以上

那个在论坛发帖的人,是那15人中的一个。他的经历完全真实,他的收益完全真实——但他展示的是这100条路径中的一条,不是这个策略的全貌。

"概率分布"才是策略的本质

一个策略的"好坏",不是由任何一条路径决定的,而是由所有可能路径的分布决定的:

评估维度单条路径能回答吗概率分布能回答吗
"这个人赚了多少?"
"这个策略的期望值是正的吗?"
"最坏情况下会亏多少?"
"不同市场环境下表现如何?"
"收益来自策略逻辑还是市场贝塔?"

类比

你掷一枚硬币10次,出现了8次正面。

  • 你观察到的事实:8/10正面
  • 这能证明硬币不公平吗?不能。10次样本量太小
  • 你需要的是:掷1000次,看正面比例是否显著偏离50%

单次实盘就是那"10次掷硬币",看起来有结论,但样本量不足以区分"策略真的好"和"运气好"。


📊 证据层级框架:从弱到强

不是所有证据都一样可靠。以下是投资研究中常见的证据类型,按可靠性从低到高排列:

第五级(最弱):个案叙事

特征描述
形式"我/某人用这个方法赚了XX%"
优点直观、有感染力、容易理解
缺陷幸存者偏差、单一路径、无法排除运气因素
可靠性★☆☆☆☆

为什么最弱?

你在社交媒体上看到的"成功案例",经过了至少三层筛选:

  1. 自选择偏差:亏钱的人不会发帖炫耀
  2. 时间切片偏差:赚钱时截图,亏钱时沉默
  3. 归因偏差:把市场贝塔(大盘涨了)归因于个人能力

第四级:单次回测

特征描述
形式"回测2020-2024年数据,年化收益25%"
优点比个案更系统,有完整的历史记录
缺陷过拟合风险、前视偏差、单一市场环境
可靠性★★☆☆☆

为什么较弱?

单次回测最大的问题是你知道答案再出题

  • 参数是在已知数据上调优的(事后诸葛亮)
  • 市场环境可能不会重复(2020-2024年有大放水和AI行情,这不是常态)
  • 回测无法模拟真实的执行摩擦(滑点、流动性、心理压力)

关于回测中常见的认知陷阱,可参考 微操即死 中"回测幻觉"部分的讨论。

第三级:样本外测试 + 多环境验证

特征描述
形式"用2015-2019年数据开发策略,在2020-2024年未参与优化的数据上验证"
优点显著降低过拟合风险,测试策略的泛化能力
缺陷仍然是历史数据,无法覆盖真正的"未知"场景
可靠性★★★☆☆

为什么更可靠?

这相当于考试前不看答案:

  • 策略在没见过的数据上仍然有效 → 说明逻辑有泛化能力
  • 多种市场环境(牛市、熊市、震荡市)下都通过 → 说明不是依赖特定行情
  • 策引的回测系统支持将数据拆分为训练集和验证集,帮助你进行这种测试

第二级:大样本统计 + 学术研究

特征描述
形式"对3000个账户、跨越15年的数据进行分析"
优点样本量大、时间跨度长、可以控制变量
缺陷历史非未来、可能存在数据挖掘偏差
可靠性★★★★☆

为什么接近可靠?

大样本的核心价值在于把个人运气从数据中洗掉

  • 3000个账户中有人赚50%也有人亏30%,但平均值反映的是策略本身
  • 15年数据覆盖了牛熊周期,减少了"时代红利"的干扰
  • 学术研究通常有同行评审,方法论经过严格检验

本系列多篇文章引用的数据(如 不支持的功能 中的日内交易研究),就属于这个级别。

第一级(最强):因果模型 + 经济学逻辑

特征描述
形式"趋势跟踪有效,是因为市场存在动量效应,而动量效应来源于投资者的锚定偏差和信息传播的渐进性"
优点不依赖特定数据,解释"为什么"而非只是"是什么"
缺陷理论模型不等于实践保证
可靠性★★★★★

为什么最强?

因为它回答的是"为什么有效",而不仅仅是"过去有效":

  • 动量效应有行为金融学的理论基础(锚定效应、羊群效应、信息传播延迟)
  • 趋势跟踪在多个市场、多个时代反复验证(非单一数据集)
  • 即使市场环境变化,只要底层人类心理不变,效应就可能持续

但注意:即使是最强的证据,也只能说"概率上有效",不能保证"每次都赚钱"。


💡 实践框架:如何评估一个策略主张

当你看到一个策略声称有效时,用这个清单快速评估:

第一步:证据来源

问自己如果答案是…
这个结论基于多少个账户/标的的数据?< 10个 → 个案级别,参考价值有限
数据跨越了多长时间?< 3年 → 可能只覆盖了一种市场环境
是否有样本外测试?没有 → 过拟合风险高
收益来源能用经济学逻辑解释吗?不能 → 可能是数据挖掘的结果

第二步:分离运气与能力

一个常见的思维实验:

假设有1000个基金经理,每年各有50%概率跑赢大盘。10年后,大约有1个人连续10年跑赢。这个人一定是天才吗?不是——统计规律告诉你,1024个人中就会"自然产生"一个这样的人。

这就是为什么"某人连续N年赚钱"不等于"这个策略好"。你需要问:

  • 这种收益水平,纯靠运气能达到的概率是多少?
  • 如果概率不低(比如10%以上),那就不能排除运气因素

第三步:寻找反面证据

真正自信的策略评估者,会主动寻找反面证据

  • 这个策略在什么环境下会失效?
  • 历史上最大回撤是多少?
  • 在最差的3年,表现如何?

策引的回测报告中,"最大回撤"和"最长回撤周期"就是为这个目的设计的。关于如何判断回撤是否超出正常范围,参考 策略失效判定


🔄 这跟策引有什么关系?

策引在证据层级中的定位

策引作为策略分析工具,它的价值恰好在于帮你从低级别证据向高级别证据迈进

你自己做策引帮你做
看到一个策略"听说不错" → 个案叙事在历史数据上系统回测 → 样本外测试
凭感觉判断策略好坏用回测报告的量化指标评估
只看收益率同时看最大回撤、夏普比率、胜率等多维指标
在一个标的上测试在多个标的上交叉验证

策引不做什么

  • 不做:告诉你"这个策略一定能赚钱"(没有任何工具能做到)
  • 不做:隐藏策略的缺陷(回测报告完整展示回撤和亏损期)
  • 不做:用单次实盘结果宣传策略(官方模拟组合 展示的是系统逻辑,不是收益承诺)

关于策引自身的策略验证

策引提供的策略(双均线、动量轮动等)都经过了:

  1. 样本外测试:在训练集之外的数据上验证
  2. 多市场环境覆盖:牛市、熊市、震荡市
  3. 经济学逻辑支撑:每个策略背后有明确的市场假设(如"趋势的持续性")

但即便如此,历史表现不代表未来结果。这正是为什么策引强调规则化执行而非收益承诺——参考 规则化执行


💬 常见疑问

Q1:那实盘数据完全没用吗?

不是没用,而是要正确使用。

实盘数据的真正价值不在于"证明策略好",而在于:

  • 验证执行能力:回测能赚钱 ≠ 你执行时能赚钱(滑点、延迟、心理干扰都会影响结果)
  • 暴露隐藏成本:实际交易中的摩擦成本往往比回测假设的更高
  • 测试心理承受力:面对真实亏损时,你是否能坚持规则

所以实盘不是用来"证明策略好"的,而是用来"暴露回测没覆盖到的问题"。

Q2:如果大样本研究说某个策略有效,我照着做就行了吗?

不一定。 大样本研究告诉你的是"平均水平"和"概率分布",但你是分布中的一个样本点

  • 你的执行纪律、资金规模、心理素质都会影响你落在分布的哪个位置
  • 一个期望值为正的策略,仍然可能让你在某一年亏损20%

正确的态度是:用大样本研究选择策略方向,用回测验证参数适配性,用实盘暴露执行问题,用规则化系统控制人为偏差。

Q3:策引的回测结果算第几级证据?

策引的回测结果本身是第四级(单次回测)。但如果你:

  • 使用训练集/验证集分离 → 提升到第三级
  • 在多个标的上交叉验证 → 进一步提升可靠性
  • 结合策略背后的经济学逻辑理解 → 接近第一级

工具本身不决定证据层级——你如何使用工具决定了证据层级。


🎓 自查练习

下次当你看到一个策略主张时,试着回答:

检查项你的判断
1. 这个结论基于几条路径?(1条 vs 1000条)□ 单条路径 □ 多条路径
2. 数据是否跨越了完整的牛熊周期?□ 是 □ 否
3. 是否有样本外验证?□ 是 □ 否
4. 收益来源有经济学解释吗?□ 有 □ 没有
5. 展示者是否同时展示了最大亏损和最差时期?□ 是 □ 否

如果3个以上答案是右列:这个证据的可靠性较低,在做决策前需要更多验证。


🎯 核心洞察:记住这三句话

  1. "一条路径无法证明一个分布"

    • 某人实盘赚了50%是事实,但这个事实不能证明策略的期望值是正的
  2. "证据有层级,不是所有'数据'都一样可靠"

    • 个案叙事 < 单次回测 < 样本外测试 < 大样本统计 < 因果模型
  3. "问'为什么有效',比问'过去赚了多少'更重要"

    • 能解释因果机制的策略,比只有好看历史数据的策略更值得信赖

相关阅读