翻译《Polymarket 套利机器人构建指南》

Polymarket 套利机器人构建指南

你有没有注意到,交易机器人从 Polymarket 攫取了最大的利润?

现在每个散户都试图创建自己的机器人,但结果对每个人来说都一样:亏损。 原因很简单: 真正的机器人是由那些在构建之前刻苦研究过的人创建的。 单靠一份指南永远帮不了你。 Claude 这样的 AI 工具或 Rust 这样的编程语言也帮不了初学者。 这就是我创建这份指南的原因。

Polymarket 让用户对现实世界的事件进行投注。 价格反映了集体概率。

如果 YES 的交易价格为 $0.60,市场意味着有 60%60\% 的概率。

当定价打破这一逻辑时,套利就会发生。

在二元市场中,YES + NO 应该等于 $1。

但由于流动性缺口、执行延迟或关联条件,总和可能会偏离。

当这种情况发生时,就存在潜在的无风险利润。

示例: 如果 YES = $0.50 且 NO = $0.49,总计 $0.99。

这是定价错误(你以 $0.01 的折扣购买了 1 美元)。

套利机器人的存在就是为了自动捕捉这些低效机会。

但这并不是免费的钱,除非你理解其机制。

费用、滑点、Gas 成本和执行失败会迅速抹杀利润。

在构建任何东西之前,先研究为什么这些低效现象存在。

论文 《Arbitrage in Prediction Markets》 分析了真实的 Polymarket 数据。它显示了单一条件和多条件市场中 persistent 的套利机会。

图像

这些图表显示了按主题划分的交易量集中度,政治和体育占主导地位。 你自己检查一下: https://polymarket.com/event/fed-decision-in-march-885?via=bored2boar 截至目前交易量为 $1.45` 亿。

交易量越大 = 定价错误机会越多。

这些市场很混乱,因为信息流动不均匀且流动性碎片化。

为什么理论很重要?

因为有些套利并不明显。 市场看起来可能是独立的,但共享隐藏的语义重叠。

如果你的逻辑忽略了这一点,你的机器人会产生误报。

跨平台低效在 《Semantic Non-Fungibility》 论文中有涵盖。

它显示由于流动性碎片化,跨平台存在 24%2-4\% 的偏差。

如果你扫描多个场所,那是真正的超额收益 (alpha)。

对于组合市场,请阅读 《Arbitrage-Free Combinatorial Market Making》

它解释了整数规划如何在事件树中保持定价一致。

图像

该方案可视化了锦标赛结构。 如果 A 队赢得半决赛,它必须出现在决赛中。

机器人必须理解这些依赖关系。

然后是自动化。

《Neural Networks for Static Arbitrage》 论文证明机器学习可以在没有预定义定价模型的情况下检测套利。

这对扩展至关重要。

你需要的工具:

  • Python
  • Web3.py
  • Pandas
  • NumPy
  • SciPy

图像

Polymarket API:

  • 用于市场数据的 Gamma API
  • 用于订单执行的 CLOB API

一切都是公开且免费使用的。 从理论开始,它可以防止愚蠢的错误。

Polymarket 上的核心套利概念

Polymarket 运行在 Polygon 上。

流动性来自自动做市商 (AMM)。

YESNO 代币针对 USDC 进行交易。

主要有三种套利类型:

  1. 市场内套利 (Intra-market arbitrage) YES+NO1YES + NO \neq 1
  2. 市场间套利 (Inter-market arbitrage) 相关事件定价错误
  3. 跨平台套利 (Cross-platform arbitrage) 同一事件在其他地方定价不同

让我们分解它们。

单一条件套利

图像

此图表显示了叙利亚市场中的成交量加权平均价 (VWAP) 价格偏差。

  • 当偏差超过 2%2\% 时,机会出现。

这些缺口通常来自执行滞后。

图像

该方案显示中位数利润 >2 美分,尤其是在加密重度市场中。

微小的优势。高频。这就是游戏。

多条件套利

这些市场将结果捆绑在一起。

图像

此图表证明政治主导了多条件套利。

流动性分布不均匀。 排名靠前的结果吸收了大部分交易量。

图像

你的机器人应该优先考虑高流动性条件。

组合套利

使用整数规划在大型结果空间中强制执行无套利约束。

图像

把它想象成解方程组。如果整个树的概率加起来不一致,就有优势。

语义套利

跨平台描述相似事件的市場可能漂移 24%2-4\%

示例: “候选人 X 会赢吗?”与“政党 Y 会赢吗?”

它们重叠。但市场将它们分开对待。

使用 NLP 对齐描述。这就是你检测语义相似性的方法。

机器学习检测

论文 “NEURAL NETWORKS CAN DETECT MODEL-FREE STATIC ARBITRAGE STRATEGIES” 在价格向量上训练神经网络。

图像

此表评估了精确率和召回率。

  • 高维检测比硬编码规则扩展性更好。

为什么这一切很重要?

因为 Polygon 上的费用是 0.51%0.5-1\%。 如果你的模型忽略了它们,你的“套利”就不是真实的。

从简单开始: 通过 REST API 获取价格。 检查 YES+NOYES + NO 是否偏离阈值。

然后扩展。

设置你的环境

你需要干净的基础设施。

推荐栈:

  • Python 3.12+
  • requests
  • web3.py
  • pandas
  • asyncio
  • torch (用于 ML)

安装: pip install web3 requests pandas torch

Polymarket API:

  • /markets 用于列表
  • /orders 用于订单簿

对于历史数据,使用 The Graph 子图: (matic-markets via docs.bitquery.io)

为什么?

实时 API 检测当前的低效。 子图帮助你回测。

设置钱包:

  • MetaMask
  • Polygon 网络
  • 注入 MATIC + USDC

测试连接:

from web3 import Web3
w3 = Web3(Web3.HTTPProvider('polygon-rpc.com'))

图像

此图表显示了流动性趋势。 机器人必须过滤活跃市场。

对于组合逻辑: 使用 PuLP 进行整数规划。

对于语义匹配: 使用 HuggingFace transformers。

首先构建一个获取脚本: 每 10 秒查询一次。 记录偏差。

稳定性第一。优化随后。

数据收集和机会检测

使用 /markets 列出活跃条件。 然后查询 /prices 获取 VWAP。

将数据存储在 SQLite 中。

为什么?

因为套利窗口很短。 这张图片显示了 bid 差价消失得有多快:

图像

市场内逻辑

如果 YES+NO>1YES + NO > 1,做空定价过高的一方 如果 YES+NO<1YES + NO < 1,买入定价过低的一方

仅当偏差 >2%+费用> 2\% + \text{费用} 时才行动。

多市场逻辑

使用 LLM 识别依赖关系。 此图表显示了依赖集群:

图像

你可以使用 OpenAI API 来语义对齐事件。

这反映了 “Semantic Non-Fungibility and Violations of the Law of One Price in Prediction Markets” 中的框架。

组合检测

将结果空间建模为整数规划。

求解不一致性。

神经网络检测

使用 torch.nn 训练分类器。

输入:价格向量 输出:套利 / 无套利

目标 90%\sim 90\% 召回率。

使用子图数据回测。

图像

此图表显示利润上限在 $100` 流动性左右。 执行规模很重要。

异步扫描至关重要。 速度就是优势。

高级检测技术

对于 NegRisk 再平衡:

使用 SciPy 的优化方法。 查看投资组合调整机会:

图像

跨平台:

通过 API 扫描 Kalshi, Manifold。 “Semantic Non-Fungibility and Violations of the Law of One Price in Prediction Markets” 发现事件重叠约 6%6\%

那是碎片化流动性的 alpha。

整数规划实现

使用 PuLP:

定义变量 = 头寸大小 约束 = 无损失条件 目标 = 最大化利润

这反映了 “Arbitrage-Free Combinatorial Market Making via Integer Programming”

神经网络模型

架构:

  • 5 个隐藏层
  • 学习率 = 0.00010.0001

特征:

  • 价格向量
  • 交易量
  • 价差

在模拟定价错误上训练。

简单规则会错过复杂的多市场优势。 ML 跨维度扩展检测。

图像

此图表显示多条件市场的表现优于单一条件市场。

如果你要优化,就在那里优化。

执行、风险管理和优化

检测是理论。 执行是赚钱或亏钱的地方。

使用 CLOB /orders 端点。 用 web3 签名。

估算 Gas: w3.eth.gas_price

风险

  • 滑点(使用限价单)
  • 抢跑(考虑私有中继)
  • 预言机风险(分散事件)
  • 流动性上限(模拟成交)

头寸 sizing: 每笔交易风险 <1\% 资本。 如果每日回撤 >5%>5\% 则停止交易。

优化

针对历史数据集回测。 关注具有重复利用机会的体育市场。 示例市场https://polymarket.com/sports/nba/nba-bkn-okc-2026-02-20?via=bored2boar

监控夏普比率。 跟踪胜率和执行滑点。

使用 asyncio 进行并发。 部署在 AWS 或类似服务上以实现 24/7 正常运行时间。

超参数调整: 网格搜索学习率和架构。 遵循 “NEURAL NETWORKS CAN DETECT MODEL-FREE STATIC ARBITRAGE STRATEGIES” 中的方法。

此图表显示一致的小赢优于 sporadic 的大赢:

图像

套利是关于复利小优势。

结论和下一步

你现在有了蓝图。

从这里的理论基础开始: https://arxiv.org/pdf/2508.03474

到这里的语义对齐: https://arxiv.org/pdf/2601.01706

到这里的组合定价: https://arxiv.org/pdf/1606.02825

到这里的神经检测: https://arxiv.org/pdf/2306.16422

到这里的 API 执行: docs.polymarket.com

这些是我用于本文的论文,并创建了我自己的机器人,自启动以来已经赚了 $7,800+。

虽然不多,但几个月后这个金额可能会变成 6 位数的净利润。

从简单开始:

  1. 构建监控器
  2. 添加检测逻辑
  3. 回测
  4. 添加执行
  5. 逐步扩展

观察多条件利润如何随时间扩展。

图像

套利机器人不创造优势,它们只捕捉低效。

随着 Polymarket 的增长,碎片化也在增长。

碎片化创造定价错误。

那是机会。

但只有你仔细构建才行。

积极测试。

计入交易成本。

模拟流动性。

套利让优势普惠。

但唯有自律的构建者,方能长久拥有。

理性构建,审慎套利。