Anonymous 收录于 Technology

2026-02-21 约 3000 字预计阅读 6 分钟

Polymarket 套利机器人构建指南

你有没有注意到，交易机器人从 Polymarket 攫取了最大的利润？

现在每个散户都试图创建自己的机器人，但结果对每个人来说都一样：亏损。原因很简单：真正的机器人是由那些在构建之前刻苦研究过的人创建的。单靠一份指南永远帮不了你。 Claude 这样的 AI 工具或 Rust 这样的编程语言也帮不了初学者。这就是我创建这份指南的原因。

Polymarket 让用户对现实世界的事件进行投注。价格反映了集体概率。

如果 YES 的交易价格为 $0.60，市场意味着有 $60\%$ 的概率。

当定价打破这一逻辑时，套利就会发生。

在二元市场中，YES + NO 应该等于 $1。

但由于流动性缺口、执行延迟或关联条件，总和可能会偏离。

当这种情况发生时，就存在潜在的无风险利润。

示例： 如果 YES = $0.50 且 NO = $0.49，总计 $0.99。

这是定价错误（你以 $0.01 的折扣购买了 1 美元）。

套利机器人的存在就是为了自动捕捉这些低效机会。

但这并不是免费的钱，除非你理解其机制。

费用、滑点、Gas 成本和执行失败会迅速抹杀利润。

在构建任何东西之前，先研究为什么这些低效现象存在。

论文 《Arbitrage in Prediction Markets》 分析了真实的 Polymarket 数据。它显示了单一条件和多条件市场中 persistent 的套利机会。

这些图表显示了按主题划分的交易量集中度，政治和体育占主导地位。你自己检查一下： https://polymarket.com/event/fed-decision-in-march-885?via=bored2boar 截至目前交易量为 $1.45` 亿。

交易量越大 = 定价错误机会越多。

这些市场很混乱，因为信息流动不均匀且流动性碎片化。

为什么理论很重要？

因为有些套利并不明显。市场看起来可能是独立的，但共享隐藏的语义重叠。

如果你的逻辑忽略了这一点，你的机器人会产生误报。

跨平台低效在 《Semantic Non-Fungibility》 论文中有涵盖。

它显示由于流动性碎片化，跨平台存在 $2-4\%$ 的偏差。

如果你扫描多个场所，那是真正的超额收益 (alpha)。

对于组合市场，请阅读 《Arbitrage-Free Combinatorial Market Making》。

它解释了整数规划如何在事件树中保持定价一致。

该方案可视化了锦标赛结构。如果 A 队赢得半决赛，它必须出现在决赛中。

机器人必须理解这些依赖关系。

然后是自动化。

《Neural Networks for Static Arbitrage》 论文证明机器学习可以在没有预定义定价模型的情况下检测套利。

这对扩展至关重要。

你需要的工具：

Python
Web3.py
Pandas
NumPy
SciPy

Polymarket API：

用于市场数据的 Gamma API
用于订单执行的 CLOB API

一切都是公开且免费使用的。从理论开始，它可以防止愚蠢的错误。

Polymarket 上的核心套利概念

Polymarket 运行在 Polygon 上。

流动性来自自动做市商 (AMM)。

YES 和 NO 代币针对 USDC 进行交易。

主要有三种套利类型：

市场内套利 (Intra-market arbitrage) $YES + NO \neq 1$
市场间套利 (Inter-market arbitrage) 相关事件定价错误
跨平台套利 (Cross-platform arbitrage) 同一事件在其他地方定价不同

让我们分解它们。

单一条件套利

此图表显示了叙利亚市场中的成交量加权平均价 (VWAP) 价格偏差。

当偏差超过 $2\%$ 时，机会出现。

这些缺口通常来自执行滞后。

该方案显示中位数利润 >2 美分，尤其是在加密重度市场中。

微小的优势。高频。这就是游戏。

多条件套利

这些市场将结果捆绑在一起。

此图表证明政治主导了多条件套利。

流动性分布不均匀。排名靠前的结果吸收了大部分交易量。

你的机器人应该优先考虑高流动性条件。

组合套利

使用整数规划在大型结果空间中强制执行无套利约束。

把它想象成解方程组。如果整个树的概率加起来不一致，就有优势。

语义套利

跨平台描述相似事件的市場可能漂移 $2-4\%$ 。

示例： “候选人 X 会赢吗？”与“政党 Y 会赢吗？”

它们重叠。但市场将它们分开对待。

使用 NLP 对齐描述。这就是你检测语义相似性的方法。

机器学习检测

论文 “NEURAL NETWORKS CAN DETECT MODEL-FREE STATIC ARBITRAGE STRATEGIES” 在价格向量上训练神经网络。

此表评估了精确率和召回率。

高维检测比硬编码规则扩展性更好。

为什么这一切很重要？

因为 Polygon 上的费用是 $0.5-1\%$ 。如果你的模型忽略了它们，你的“套利”就不是真实的。

从简单开始：通过 REST API 获取价格。检查 $YES + NO$ 是否偏离阈值。

然后扩展。

设置你的环境

你需要干净的基础设施。

推荐栈：

Python 3.12+
requests
web3.py
pandas
asyncio
torch (用于 ML)

安装： pip install web3 requests pandas torch

Polymarket API：

/markets 用于列表
/orders 用于订单簿

对于历史数据，使用 The Graph 子图： (matic-markets via docs.bitquery.io)

为什么？

实时 API 检测当前的低效。子图帮助你回测。

设置钱包：

MetaMask
Polygon 网络
注入 MATIC + USDC

测试连接：

from web3 import Web3
w3 = Web3(Web3.HTTPProvider('polygon-rpc.com'))

此图表显示了流动性趋势。机器人必须过滤活跃市场。

对于组合逻辑：使用 PuLP 进行整数规划。

对于语义匹配：使用 HuggingFace transformers。

首先构建一个获取脚本：每 10 秒查询一次。记录偏差。

稳定性第一。优化随后。

数据收集和机会检测

使用 /markets 列出活跃条件。然后查询 /prices 获取 VWAP。

将数据存储在 SQLite 中。

为什么？

因为套利窗口很短。这张图片显示了 bid 差价消失得有多快：

市场内逻辑

如果 $YES + NO > 1$ ，做空定价过高的一方如果 $YES + NO < 1$ ，买入定价过低的一方

仅当偏差 $> 2\% + \text{费用}$ 时才行动。

多市场逻辑

使用 LLM 识别依赖关系。此图表显示了依赖集群：

你可以使用 OpenAI API 来语义对齐事件。

这反映了 “Semantic Non-Fungibility and Violations of the Law of One Price in Prediction Markets” 中的框架。

组合检测

将结果空间建模为整数规划。

求解不一致性。

神经网络检测

使用 torch.nn 训练分类器。

输入：价格向量输出：套利 / 无套利

目标 $\sim 90\%$ 召回率。

使用子图数据回测。

此图表显示利润上限在 $100` 流动性左右。执行规模很重要。

异步扫描至关重要。速度就是优势。

高级检测技术

对于 NegRisk 再平衡：

使用 SciPy 的优化方法。查看投资组合调整机会：

跨平台：

通过 API 扫描 Kalshi, Manifold。 “Semantic Non-Fungibility and Violations of the Law of One Price in Prediction Markets” 发现事件重叠约 $6\%$ 。

那是碎片化流动性的 alpha。

整数规划实现

使用 PuLP：

定义变量 = 头寸大小约束 = 无损失条件目标 = 最大化利润

这反映了 “Arbitrage-Free Combinatorial Market Making via Integer Programming”。

神经网络模型

架构：

5 个隐藏层
学习率 = $0.0001$

特征：

价格向量
交易量
价差

在模拟定价错误上训练。

简单规则会错过复杂的多市场优势。 ML 跨维度扩展检测。

此图表显示多条件市场的表现优于单一条件市场。

如果你要优化，就在那里优化。

执行、风险管理和优化

检测是理论。执行是赚钱或亏钱的地方。

使用 CLOB /orders 端点。用 web3 签名。

估算 Gas： w3.eth.gas_price

风险

滑点（使用限价单）
抢跑（考虑私有中继）
预言机风险（分散事件）
流动性上限（模拟成交）

头寸 sizing： 每笔交易风险 <1\% 资本。如果每日回撤 $>5\%$ 则停止交易。

优化

针对历史数据集回测。关注具有重复利用机会的体育市场。 示例市场： https://polymarket.com/sports/nba/nba-bkn-okc-2026-02-20?via=bored2boar

监控夏普比率。跟踪胜率和执行滑点。

使用 asyncio 进行并发。部署在 AWS 或类似服务上以实现 24/7 正常运行时间。

超参数调整：网格搜索学习率和架构。遵循 “NEURAL NETWORKS CAN DETECT MODEL-FREE STATIC ARBITRAGE STRATEGIES” 中的方法。

此图表显示一致的小赢优于 sporadic 的大赢：

套利是关于复利小优势。

结论和下一步

你现在有了蓝图。

从这里的理论基础开始： https://arxiv.org/pdf/2508.03474

到这里的语义对齐： https://arxiv.org/pdf/2601.01706

到这里的组合定价： https://arxiv.org/pdf/1606.02825

到这里的神经检测： https://arxiv.org/pdf/2306.16422

到这里的 API 执行： docs.polymarket.com

这些是我用于本文的论文，并创建了我自己的机器人，自启动以来已经赚了 $7,800+。

虽然不多，但几个月后这个金额可能会变成 6 位数的净利润。

从简单开始：

构建监控器
添加检测逻辑
回测
添加执行
逐步扩展

观察多条件利润如何随时间扩展。

套利机器人不创造优势，它们只捕捉低效。

随着 Polymarket 的增长，碎片化也在增长。

碎片化创造定价错误。

那是机会。

但只有你仔细构建才行。

积极测试。

计入交易成本。

模拟流动性。

套利让优势普惠。

但唯有自律的构建者，方能长久拥有。

理性构建，审慎套利。

翻译《Polymarket 套利机器人构建指南》