Defuddle - 网页内容提取工具(类似 Mozilla Readability)
https://github.com/kepano/defuddle
Defuddle 是一个用于从网页中提取主要内容的工具。
各路浏览器网页总结扩展插件都会用到类似工具来提取网页内容发送给 AI 。
用最多的大概就是 Mozilla Readability ,Defuddle 可以当作它的一个替代。
● 从网页中提取主要内容,删除注释、侧边栏、页眉、页脚等非必要元素,只保留主要内容
● 输出更加整洁和一致的 HTML 文档,包括脚注、数学公式、代码块等
● 利用页面的移动端样式来判断不必要的元素
● 从页面中提取更多元数据,包括 schema.org 数据
#Tool #GitHub #AI
----------------------
相关项目
https://github.com/mozilla/readability
https://github.com/mixmark-io/turndown
https://github.com/obsidianmd/obsidian-clipper
https://github.com/ariesdevil/markdown-clipper
https://github.com/deathau/markdownload
https://github.com/kepano/defuddle
Defuddle 是一个用于从网页中提取主要内容的工具。
各路浏览器网页总结扩展插件都会用到类似工具来提取网页内容发送给 AI 。
用最多的大概就是 Mozilla Readability ,Defuddle 可以当作它的一个替代。
● 从网页中提取主要内容,删除注释、侧边栏、页眉、页脚等非必要元素,只保留主要内容
● 输出更加整洁和一致的 HTML 文档,包括脚注、数学公式、代码块等
● 利用页面的移动端样式来判断不必要的元素
● 从页面中提取更多元数据,包括 schema.org 数据
#Tool #GitHub #AI
----------------------
相关项目
https://github.com/mozilla/readability
https://github.com/mixmark-io/turndown
https://github.com/obsidianmd/obsidian-clipper
https://github.com/ariesdevil/markdown-clipper
https://github.com/deathau/markdownload