Sanitized excerpt from a private quant-research monorepo. 多个 LLM 研究员在 隔离岛屿中持续提出、检验、证伪、沉淀研究假设;系统不依赖 LLM 自评,而靠 机械防火墙、证据账本、试验债务、matched-random 接地门槛、forward 盲样追踪 与人类治理保持诚实。
一句话:这不是"LLM 自动挖因子系统",而是一个带证据账本、试验债务、森林 调度、公共因子池、组合防火墙、工具审计和人类治理的自动量化研究组织。
方法论概览见 docs/ARCHITECTURE.md;设计决策 rationale 见
docs/decisions/。
┌─────────────────────────────────────────┐
│ ISLANDS (多 LLM 研究员) │
│ 模型 × 机制先验 × 考场偏好 × 数据源偏置 │
│ 结构化基因组,加岛=加一个 YAML │
└────────────────────┬────────────────────┘
│ 提出假设
负知识回灌 ▲ ▼
┌───────────────┴──────┐ ┌──────────────────────────────────┐
│ AUTOPSY │ │ 夜间生成层 draft_pool │
│ 失败解剖→族级摘要 │ │ 批量生成→查重/墓碑→train 窗免费 │
│ L2 负知识 │◀─────│ 预检排名入池(绝不碰 OOS) │
└──────────────────────┘ │ 自由格(跳出主航道)+修订格(改诊断) │
└────────────────┬─────────────────┘
│ 周期"赶考":每岛择优 1 条
┌──────────────────────┐ ▼
│ CONTRACTS │ ┌──────────────────────────────────┐
│ 假设/表达/考场冻结+hash│─────▶│ EXAM + LEDGER (正式评估) │
│ 防重注册铸新身份 │ │ OOSLock 单向阀 · 试验债务计账 │
└──────────────────────┘ │ L1 结果账本(JSONL+DuckDB,replay) │
┌──────────────────────┐ └───┬──────────────────────────┬───┘
│ BARS │ 接地门槛 │ 通过 discovery 门 │ 机械晋级
│ matched-random null │──────────▶│ ▼
│ 表达力变强→门槛重定价 │ ▼ ┌──────────────────────┐
└──────────────────────┘ ┌───────────────┐ │ CLAIMS (L2 证据声明) │
┌──────────────────────┐ │ FORWARD │ │ 机械检查表驱动晋级 │
│ TIME FIREWALL │ │ 盲样追踪+canary│ │ 可追溯 L1·支持+反证 │
│ train/OOS/embargo │ │ 反回填闸门 │ └──────────────────────┘
└──────────────────────┘ └───────────────┘
┌──────────────────────┐ ┌───────────────────────────────────────┐
│ GOVERNANCE │ │ FACTOR POOL → COMPOSITE → PORTFOLIO FW │
│ 工具/算子申请·人类复核 │ │ 不按表现排序 · 受控组合 · 只出权重上限 │
└──────────────────────┘ └───────────────────────────────────────┘
┌──────────────────────────────────────────────────────────────────┐
│ 运行纪律: HALT 哨兵 · 调度 canary · 巡检 replay · 成本闸 · 预算池 │
└──────────────────────────────────────────────────────────────────┘
src/world/ 核心实现(~38 模块)
exam.py ledger.py 考场 + L1 结果账本(JSONL+DuckDB 双写, replay hash, 幂等)
bars.py matched-random null 接地门槛注册表
contracts.py 假设/表达/考场契约冻结链(hash 防重注册铸新身份)
capability.py timefw.py 能力门 + 时间防火墙(embargo 审计, 窗口标签入账)
claims.py L2 证据声明状态机(机械检查表晋级, 手改 status 即 raise)
islands.py 多岛基因组(模型×机制先验×考场偏好×数据源偏置)
draft_pool.py 夜间生成层:提案入池/查重/train 预检排名/自由格/修订格
autopsy.py 失败解剖 → 族级摘要回灌生成层
forward.py forward 盲样追踪 + canary 注入 + 反回填闸门
factor_pool.py 公共因子池(结构上不提供按历史表现排序)
composite.py license.py 受控多因子组合 + refinement license
portfolio_fw.py 组合防火墙(有效赌注聚类, allocator 只出权重上限)
model_spec.py ml_*.py ML 轨道(冻结超参菜单, purged walk-forward, 基线门)
cutoff_probe.py LLM 知识边界行为学探测(事件梯子 + change-point)
validate.py harness 自验收(合成三臂:噪声 0 存活/注入单调检出)
configs/world/ 考场/窗口/门槛/成本闸 config + 岛注册表(加岛=加一个 YAML;
真实岛注册表不公开,见 islands/isl_example.yaml 示例)
tests/ 370+ 个测试(每条验收都是可运行检查)
scripts/ 昼夜调度驱动(night_think/saturday_exam/patrol/digest 等)
docs/ 架构概览
- 无市场数据、无 secrets、无运行 state/账本——
src/world依赖私仓的数据层与 DSL/panel 模块,端到端不可运行;自包含模块(contracts/claims/ledger 状态 机等)的单测可独立读。 - 不含具体研究内容:真实岛注册表、研究发现、验收报告与任务台账均不公开——本仓库 展示的是方法与工程实现,不是研究结论。完整设计文档为内部版本,公开版为概览。
configs/全部是示意占位(标<example>/*.example.yaml):真实的接地门槛值、 窗口边界、universe 成分、字段清单、置信区间与成本数字均经验产生、不随快照公开。 展示的是"配置形状 + 版本化 gate"的方法,不是任何具体校准结果。- 绝对路径已替换为占位
/data/quant。 - 本仓库是当前系统的思路与方法展示,仅作工程实现参考,保留所有权利(no license granted)。