支持来源 · Supported Sources

Tapestry 的平台覆盖与来源感知抓取能力

Tapestry 不是把所有网页都一视同仁地扁平抓取，而是优先保留来源结构、上下文语义与平台差异，再把内容整理进统一的 feed 与知识库管线。

Each source enters the same overall workflow, but the acquisition path stays platform-aware so threads, metadata, and content context survive the crawl.

来源覆盖 · Coverage

每一种来源都会进入同一条知识管线，但不会丢失各自的来源语义

Source-specific crawling first, unified feed modeling second, knowledge-base synthesis and display after that.

知乎 Zhihu

覆盖问题、回答、专栏与评论链，适合沉淀中文知识社区中的长链路问答与观点结构。

问题回答专栏

Reddit Threaded Communities

完整保留 thread 层级与评论树，为后续聚类、综合与引用关系提供结构基础。

Threads 评论树 Subreddit

Hacker News Technical Link Discussions

抓取技术链接、高信号评论串与开发者反馈，合并保存新闻入口与原始讨论。

Links 评论串高信号讨论

X / Twitter Fast Public Signals

短帖、转发链与公共信号快照，捕捉长文来源之外的实时舆论与观点传播。

Posts 转发链实时信号

微信公众号 WeChat Articles

图文长文、栏目内容与公众号资料，连续发布的内容会自然组织进统一主题与章节体系。

公众号文章栏目长文

微博 Weibo Trends

热度追踪、短消息扩散与公开反应记录，适合保留舆论变化与时间线上下文。

趋势公开反应时间线

小红书 Xiaohongshu

图文笔记与视觉导向内容一起进入知识库，保留生活方式语境与文本说明。

图文笔记视觉内容评论

通用 HTML Generic HTML Pages

为普通网页与未定制站点提供后备入口，让来源扩展能力不受平台边界限制。

Fallback 文章页通用入口

Source Semantics

为什么要做来源感知抓取

Thread depth, author metadata, discussion context, and page structure should survive acquisition instead of being flattened away.

评论树、作者信息与上下文不会在抓取阶段被抹平。
不同平台的原始结构差异会被保留下来，再统一进入 feed 层。
后续 synthesis 能基于更完整的证据做主题与章节组织。

Unified Pipeline

统一输出并不等于牺牲来源特征

Tapestry standardizes the downstream model while keeping the acquisition side faithful to the source.

异构来源最终进入同一套 notes、chapters、index 与 display 结果。
阅读体验统一，但引用回溯仍然保留来源语义。
这让知识库既能长期积累，也能回到原始证据层验证。