DeepSeek 的新模型思路看上去很神奇，为了解决 LLM 长上下文的问题用视觉模型去压缩文本

DeepSeek 的新模型思路看上去很神奇，为了解决 LLM 长上下文的问题用视觉模型去压缩文本。压缩率能到 10x-20x 虽然有损但是准确度还是很高的。最后还类比了人类的记忆，可以通过调节视觉图片的清晰度来控制上下文的准确程度，这个过程其实和人类的记忆衰退过程很接近。相比现在 LLM 上下文压缩都是用各种 prompt 针对不同任务用不同方法进行总结，直接降低图像的解析度确实听上去是个更优雅更合理的方法。

https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

GitHub

DeepSeek-OCR/DeepSeek_OCR_paper.pdf at main · deepseek-ai/DeepSeek-OCR

Contexts Optical Compression. Contribute to deepseek-ai/DeepSeek-OCR development by creating an account on GitHub.