DeepSeek 的新模型思路看上去很神奇,为了解决 LLM 长上下文的问题用视觉模型去压缩文本。压缩率能到 10x-20x 虽然有损但是准确度还是很高的。最后还类比了人类的记忆,可以通过调节视觉图片的清晰度来控制上下文的准确程度,这个过程其实和人类的记忆衰退过程很接近。相比现在 LLM 上下文压缩都是用各种 prompt 针对不同任务用不同方法进行总结,直接降低图像的解析度确实听上去是个更优雅更合理的方法。

https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf DeepSeek-OCR/DeepSeek_OCR_paper.pdf at main · deepseek-ai/DeepSeek-OCR
 
 
Back to Top
OKHK