Pagination Guide

如何处理 Twitter 搜索分页以支持重复采集，避免每一轮都在清重复数据

一旦工作流不再只取一页结果，pagination 就会开始影响质量。很多团队都是在 repeated monitoring、深度研究拉取或 AI-ready dataset 里，才第一次意识到分页处理的重要性。

2026-04-20

1. 先决定这条流程为什么需要更深分页

不是每条 Twitter / X search 任务都需要深分页。有些流程只需要最新信号，有些才需要更广覆盖去做分析或模型输入。

分页策略应该跟 monitoring、backfill、clustering 或 repeated review 的真实任务对齐。

每次都从零开始抓，很容易重复发现同一批结果。更稳的流程，通常会保存 checkpoint、last-seen marker 或时间窗口。

这一步会直接决定 repeated collection 到底好不好 debug。

如果团队每轮只会 review 30 条高价值结果，就没必要每小时抓几百条低价值命中。

好的分页处理，最终还是要回到团队实际的复核和路由能力上。

大多数分页问题，不是 API 本身，而是重复结果、时间边界不清楚，或者把 exploratory pull 和 production monitoring 混在一起。

清楚的 dedup 和 run-type 规则，才会让这条流程长期可用。

这些问题通常会在团队从单次测试走向可重复 Twitter / X 数据采集时冒出来。

通常不需要。很多监测流程只需要最新或最高优先级的一小段结果，而不是所有可能结果。

通常是重复数据、checkpoint 不稳定，以及抓了太多团队根本不会复核的结果。

先做一条小型 repeated collection loop，保存 result id 和 checkpoint，等复核流程稳定之后再逐步加深分页。

如果 query 设计还没稳，先看这页更合适。

如果采集深度已经清楚，下一步是记录结构，可以继续看这页。

如果你怀疑问题不是分页，而是结果本身不对，可以继续看这页。

如果你想先看 repeated collection 背后的 search 能力页，可以继续看这页。

如果这些问题已经开始频繁出现在你的流程里，可以去验证 tweet search、账号复核或 timeline 接入路径，并把输出接进稳定团队循环。