单次实盘能证明什么?谈投资研究中的证据层级
本文仅用于教育与研究,不构成投资建议。文中数据/案例仅用于说明方法与风险,可能省略交易成本与个体差异。
🎭 一个常见的争论
你在某投资论坛看到一条帖子:
"我用XX策略实盘跑了8个月,赚了47%。事实证明,这个策略就是好。"
评论区立刻分成两派:
正方:"人家都实盘赚钱了,你还要怎样?"
反方:"8个月太短,可能只是运气好。"
正方反驳:"实盘赚钱是最硬的证据。你说运气好?那你拿出你的实盘来比啊。"
讨论到这里就卡住了。因为双方都在用直觉辩论,没有一个评估证据质量的框架。
问题不在于"这个人是否真的赚了47%"——这很可能是真的。问题在于:这个事实能"证明"什么?
🧠 核心洞察:单条路径 vs 概率分布
你看到的是"一条路径"
想象一下,100个人在同一天开始执行同一个策略。8个月后:
- 15人赚了40%以上
- 30人赚了10%-30%
- 25人在盈亏线附近
- 20人亏了10%-20%
- 10人亏了20%以上
那个在论坛发帖的人,是那15人中的一个。他的经历完全真实,他的收益完全真实——但他展示的是这100条路径中的一条,不是这个策略的全貌。
"概率分布"才是策略的本质
一个策略的"好坏",不是由任何一条路径决定的,而是由所有可能路径的分布决定的:
| 评估维度 | 单条路径能回答吗 | 概率分布能回答吗 |
|---|---|---|
| "这个人赚了多少?" | ✅ | — |
| "这个策略的期望值是正的吗?" | ❌ | ✅ |
| "最坏情况下会亏多少?" | ❌ | ✅ |
| "不同市场环境下表现如何?" | ❌ | ✅ |
| "收益来自策略逻辑还是市场贝塔?" | ❌ | ✅ |
类比:
你掷一枚硬币10次,出现了8次正面。
- 你观察到的事实:8/10正面
- 这能证明硬币不公平吗?不能。10次样本量太小
- 你需要的是:掷1000次,看正面比例是否显著偏离50%
单次实盘就是那"10次掷硬币",看起来有结论,但样本量不足以区分"策略真的好"和"运气好"。
📊 证据层级框架:从弱到强
不是所有证据都一样可靠。以下是投资研究中常见的证据类型,按可靠性从低到高排列:
第五级(最弱):个案叙事
| 特征 | 描述 |
|---|---|
| 形式 | "我/某人用这个方法赚了XX%" |
| 优点 | 直观、有感染力、容易理解 |
| 缺陷 | 幸存者偏差、单一路径、无法排除运气因素 |
| 可靠性 | ★☆☆☆☆ |
为什么最弱?
你在社交媒体上看到的"成功案例",经过了至少三层筛选:
- 自选择偏差:亏钱的人不会发帖炫耀
- 时间切片偏差:赚钱时截图,亏钱时沉默
- 归因偏差:把市场贝塔(大盘涨了)归因于个人能力
第四级:单次回测
| 特征 | 描述 |
|---|---|
| 形式 | "回测2020-2024年数据,年化收益25%" |
| 优点 | 比个案更系统,有完整的历史记录 |
| 缺陷 | 过拟合风险、前视偏差、单一市场环境 |
| 可靠性 | ★★☆☆☆ |
为什么较弱?
单次回测最大的问题是你知道答案再出题:
- 参数是在已知数据上调优的(事后诸葛亮)
- 市场环境可能不会重复(2020-2024年有大放水和AI行情,这不是常态)
- 回测无法模拟真实的执行摩擦(滑点、流动性、心理压力)
关于回测中常见的认知陷阱,可参考 微操即死 中"回测幻觉"部分的讨论。
第三级:样本外测试 + 多环境验证
| 特征 | 描述 |
|---|---|
| 形式 | "用2015-2019年数据开发策略,在2020-2024年未参与优化的数据上验证" |
| 优点 | 显著降低过拟合风险,测试策略的泛化能力 |
| 缺陷 | 仍然是历史数据,无法覆盖真正的"未知"场景 |
| 可靠性 | ★★★☆☆ |
为什么更可靠?
这相当于考试前不看答案:
- 策略在没见过的数据上仍然有效 → 说明逻辑有泛化能力
- 在多种市场环境(牛市、熊市、震荡市)下都通过 → 说明不是依赖特定行情
- 策引的回测系统支持将数据拆分为训练集和验证集,帮助你进行这种测试
第二级:大样本统计 + 学术研究
| 特征 | 描述 |
|---|---|
| 形式 | "对3000个账户、跨越15年的数据进行分析" |
| 优点 | 样本量大、时间跨度长、可以控制变量 |
| 缺陷 | 历史非未来、可能存在数据挖掘偏差 |
| 可靠性 | ★★★★☆ |
为什么接近可靠?
大样本的核心价值在于把个人运气从数据中洗掉:
- 3000个账户中有人赚50%也有人亏30%,但平均值反映的是策略本身
- 15年数据覆盖了牛熊周期,减少了"时代红利"的干扰
- 学术研究通常有同行评审,方法论经过严格检验
本系列多篇文章引用的数据(如 不支持的功能 中的日内交易研究),就属于这个级别。
第一级(最强):因果模型 + 经济学逻辑
| 特征 | 描述 |
|---|---|
| 形式 | "趋势跟踪有效,是因为市场存在动量效应,而动量效应来源于投资者的锚定偏差和信息传播的渐进性" |
| 优点 | 不依赖特定数据,解释"为什么"而非只是"是什么" |
| 缺陷 | 理论模型不等于实践保证 |
| 可靠性 | ★★★★★ |
为什么最强?
因为它回答的是"为什么有效",而不仅仅是"过去有效":
- 动量效应有行为金融学的理论基础(锚定效应、羊群效应、信息传播延迟)
- 趋势跟踪在多个市场、多个时代反复验证(非单一数据集)
- 即使市场环境变化,只要底层人类心理不变,效应就可能持续
但注意:即使是最强的证据,也只能说"概率上有效",不能保证"每次都赚钱"。
💡 实践框架:如何评估一个策略主张
当你看到一个策略声称有效时,用这个清单快速评估:
第一步:证据来源
| 问自己 | 如果答案是… |
|---|---|
| 这个结论基于多少个账户/标的的数据? | < 10个 → 个案级别,参考价值有限 |
| 数据跨越了多长时间? | < 3年 → 可能只覆盖了一种市场环境 |
| 是否有样本外测试? | 没有 → 过拟合风险高 |
| 收益来源能用经济学逻辑解释吗? | 不能 → 可能是数据挖掘的结果 |
第二步:分离运气与能力
一个常见的思维实验:
假设有1000个基金经理,每年各有50%概率跑赢大盘。10年后,大约有1个人连续10年跑赢。这个人一定是天才吗?不是——统计规律告诉你,1024个人中就会"自然产生"一个这样的人。
这就是为什么"某人连续N年赚钱"不等于"这个策略好"。你需要问:
- 这种收益水平,纯靠运气能达到的概率是多少?
- 如果概率不低(比如10%以上),那就不能排除运气因素
第三步:寻找反面证据
真正自信的策略评估者,会主动寻找反面证据:
- 这个策略在什么环境下会失效?
- 历史上最大回撤是多少?
- 在最差的3年,表现如何?
策引的回测报告中,"最大回撤"和"最长回撤周期"就是为这个目的设计的。关于如何判断回撤是否超出正常范围,参考 策略失效判定。
🔄 这跟策引有什么关系?
策引在证据层级中的定位
策引作为策略分析工具,它的价值恰好在于帮你从低级别证据向高级别证据迈进:
| 你自己做 | 策引帮你做 |
|---|---|
| 看到一个策略"听说不错" → 个案叙事 | 在历史数据上系统回测 → 样本外测试 |
| 凭感觉判断策略好坏 | 用回测报告的量化指标评估 |
| 只看收益率 | 同时看最大回撤、夏普比率、胜率等多维指标 |
| 在一个标的上测试 | 在多个标的上交叉验证 |
策引不做什么
- 不做:告诉你"这个策略一定能赚钱"(没有任何工具能做到)
- 不做:隐藏策略的缺陷(回测报告完整展示回撤和亏损期)
- 不做:用单次实盘结果宣传策略(官方模拟组合 展示的是系统逻辑,不是收益承诺)
关于策引自身的策略验证
策引提供的策略(双均线、动量轮动等)都经过了:
- 样本外测试:在训练集之外的数据上验证
- 多市场环境覆盖:牛市、熊市、震荡市
- 经济学逻辑支撑:每个策略背后有明确的市场假设(如"趋势的持续性")
但即便如此,历史表现不代表未来结果。这正是为什么策引强调规则化执行而非收益承诺——参考 规则化执行。
💬 常见疑问
Q1:那实盘数据完全没用吗?
不是没用,而是要正确使用。
实盘数据的真正价值不在于"证明策略好",而在于:
- 验证执行能力:回测能赚钱 ≠ 你执行时能赚钱(滑点、延迟、心理干扰都会影响结果)
- 暴露隐藏成本:实际交易中的摩擦成本往往比回测假设的更高
- 测试心理承受力:面对真实亏损时,你是否能坚持规则
所以实盘不是用来"证明策略好"的,而是用来"暴露回测没覆盖到的问题"。
Q2:如果大样本研究说某个策略有效,我照着做就行了吗?
不一定。 大样本研究告诉你的是"平均水平"和"概率分布",但你是分布中的一个样本点:
- 你的执行纪律、资金规模、心理素质都会影响你落在分布的哪个位置
- 一个期望值为正的策略,仍然可能让你在某一年亏损20%
正确的态度是:用大样本研究选择策略方向,用回测验证参数适配性,用实盘暴露执行问题,用规则化系统控制人为偏差。
Q3:策引的回测结果算第几级证据?
策引的回测结果本身是第四级(单次回测)。但如果你:
- 使用训练集/验证集分离 → 提升到第三级
- 在多个标的上交叉验证 → 进一步提升可靠性
- 结合策略背后的经济学逻辑理解 → 接近第一级
工具本身不决定证据层级——你如何使用工具决定了证据层级。
🎓 自查练习
下次当你看到一个策略主张时,试着回答:
| 检查项 | 你的判断 |
|---|---|
| 1. 这个结论基于几条路径?(1条 vs 1000条) | □ 单条路径 □ 多条路径 |
| 2. 数据是否跨越了完整的牛熊周期? | □ 是 □ 否 |
| 3. 是否有样本外验证? | □ 是 □ 否 |
| 4. 收益来源有经济学解释吗? | □ 有 □ 没有 |
| 5. 展示者是否同时展示了最大亏损和最差时期? | □ 是 □ 否 |
如果3个以上答案是右列:这个证据的可靠性较低,在做决策前需要更多验证。
🎯 核心洞察:记住这三句话
-
"一条路径无法证明一个分布"
- 某人实盘赚了50%是事实,但这个事实不能证明策略的期望值是正的
-
"证据有层级,不是所有'数据'都一样可靠"
- 个案叙事 < 单次回测 < 样本外测试 < 大样本统计 < 因果模型
-
"问'为什么有效',比问'过去赚了多少'更重要"
- 能解释因果机制的策略,比只有好看历史数据的策略更值得信赖
相关阅读:
- 微操即死:频繁调整策略的负面影响 - 回测幻觉与过拟合陷阱
- 策略失效判定:何时坚持,何时放弃 - 如何科学评估策略表现
- 为什么策引不支持日内交易/做空/期权? - 大样本研究的应用实例
- 策略设计最佳实践 - 回测方法论与参数优化