Schema Guide
适合监测记录的 Twitter API JSON schema,让 alerts、queues 和 AI summaries 能复用同一份结构
monitoring record schema 是 Twitter / X 工作流里最值得花时间设计的一层,因为它会同时影响 alerts、queues、dashboards、summaries 和 debugging。稳的 schema,通常都小、稳、可读。
1. 先从最小 monitoring record 开始
很多稳的 schema,都是从很小的一组字段开始:source identity、post identity、采集上下文和 workflow state。
这已经足够支持团队做 routing 和 summary,不需要一上来就造超大 payload。
- 把 post id 或 URL 放进 core record。
- 把 source identity 放进 core record。
- 把 matched query 和 workflow status 放进 core record。
2. routing 字段通常比 analytic extras 更早重要
很多 monitoring job 在 schema 早期更需要的是 priority、review status 或 destination queue,而不是一堆更花哨的 analytics 字段。
所以 schema 设计通常应该先从 routing 出发,而不是从 dashboard 想象出发。
- 尽早加 priority 或 severity 字段。
- 让 review status 保持显式。
- 当 routing 重要时,加 destination 或 workflow-stage 字段。
3. raw source content 和 interpretation 最好分开
当 raw source content、human note 和 AI label 分开时,schema 往往更容易 audit,也更方便以后重跑。
这会让 QA 和后续复盘都轻松很多。
- raw text 和 notes 分开存。
- labels 和 summaries 单独字段保存。
- 不要把 source data 和 review conclusion 混在一起。
4. 最好让 alerts 和 AI 复用同一份 core record
很多稳的 monitoring 系统,最终都会让 alerts、queues 和 AI summaries 共用一份 core record shape,即使最终输出形式不同。
这会减少转换工作,也让工作流更容易长期维护。
- 尽量让所有 downstream consumer 复用同一 core record。
- 只有必要时再加少量 job-specific extension。
- 新 consumer 出现时,顺手检查 schema drift。
这条流程跑出第一次结果后,团队接着会问的问题
这些通常会在 Twitter / X 数据流程不再只是一次性测试、而是开始长期跑任务时出现。
最小 schema 里最值得放哪些字段?
通常是 post identity、source identity、matched query,再加一两项说明 workflow state 和 routing 的字段。
alert 和 AI 要不要分开用两套 schema?
很多时候可以共用同一份 core record,只在最后 consumer-specific output 上再分开。
什么样的 schema 更容易长期维护?
通常是字段名稳定、raw 和 interpreted content 分得清楚,而且每个字段都能回到真实 workflow decision 上的 schema。
通常会一起看的实现页
如果下一步是先挑字段,再设计 schema,可以继续看这页。
如果你想先看围绕 schema 的 record-building 流程,可以继续看这页。
如果这份 schema 还要支持 AI 工作流,可以继续看这页。
如果这份 schema 要继续喂 alerting,可以继续看这页。
把 Twitter / X 公开帖子做成团队能反复运行的流程
如果这些问题已经开始频繁出现在你的流程里,可以去验证 tweet search、账号复核或 timeline 接入路径,并把输出接进稳定团队循环。