覆盖问题、回答、专栏与评论链,适合沉淀中文知识社区中的长链路问答与观点结构。
支持来源 · Supported Sources
Tapestry 的平台覆盖与来源感知抓取能力
Tapestry 不是把所有网页都一视同仁地扁平抓取,而是优先保留来源结构、上下文语义与平台差异,再把内容整理进统一的 feed 与知识库管线。
Each source enters the same overall workflow, but the acquisition path stays platform-aware so threads, metadata, and content context survive the crawl.
来源覆盖 · Coverage
每一种来源都会进入同一条知识管线,但不会丢失各自的来源语义
Source-specific crawling first, unified feed modeling second, knowledge-base synthesis and display after that.
完整保留 thread 层级与评论树,为后续聚类、综合与引用关系提供结构基础。
抓取技术链接、高信号评论串与开发者反馈,合并保存新闻入口与原始讨论。
短帖、转发链与公共信号快照,捕捉长文来源之外的实时舆论与观点传播。
图文长文、栏目内容与公众号资料,连续发布的内容会自然组织进统一主题与章节体系。
热度追踪、短消息扩散与公开反应记录,适合保留舆论变化与时间线上下文。
图文笔记与视觉导向内容一起进入知识库,保留生活方式语境与文本说明。
为普通网页与未定制站点提供后备入口,让来源扩展能力不受平台边界限制。
Source Semantics
为什么要做来源感知抓取
Thread depth, author metadata, discussion context, and page structure should survive acquisition instead of being flattened away.
- 评论树、作者信息与上下文不会在抓取阶段被抹平。
- 不同平台的原始结构差异会被保留下来,再统一进入 feed 层。
- 后续 synthesis 能基于更完整的证据做主题与章节组织。
Unified Pipeline
统一输出并不等于牺牲来源特征
Tapestry standardizes the downstream model while keeping the acquisition side faithful to the source.
- 异构来源最终进入同一套 notes、chapters、index 与 display 结果。
- 阅读体验统一,但引用回溯仍然保留来源语义。
- 这让知识库既能长期积累,也能回到原始证据层验证。