红楼梦模拟器：社会科学的圣杯，大语言谶判词

前言
#

预测未来吉凶乃至人类命运，是人类社会自古以来的一大命题，LLM(大语言模型)让我们看到解决此问题的契机。

本文介绍将 LLM 作为最新的工具，并以红楼梦作为沙盒，寻找方法预测红楼梦后四十回。

先声明我并没有做到，也许未来某一天做得到的时候，此文章将会被搜索到。

此文更多的是思考文字本身，虽不像物理公式明确，

但作为人类掌握现实与推测未来的工具，比我们想象的更为重要，

文字不仅是一种"想象"的现实，并且文字并不是不客观，他只是以最符合成本的方式映照客观事实。

而 LLM 作为预测文字的自动化机制，将极致的压缩这种现实的抽取、产生、映照客观事实的成本。

最新的实作会更新在 ios app: 红楼梦模拟器

APP: Link

人生三大恨事：一恨鲥鱼多刺，二恨海棠无香，三恨《红楼梦》未完。

by 张爱玲

天文: 不只是文字接龙而已
#

预测未来一直是人类社会的大事，每个古文明都有专职观星的祭司或官职，

天文、水文等符号系统将自然现象、物理规律文字化，最典型的例子就是经纬度，文字变成人类理解及影响客观环境的重要工具。

文字与世界的映射带来的实用性，在大语言模型(LLM)能力爆发的这几年得到验证。

以往语言这种工具因为不够明确(deterministic)，在科学作为第一生产力的工业革命之后，一直处在歧视链的下方。

LLM 的时代终于把文字的消化与产出，带进毫秒级的领域，并摆脱人类阅读、打字、笔误等阻碍。

原本极度消耗脑力及时间的工作，现在有机会跟生产线一样组装配置。

生产线产出的是什么呢? LLM 的本质是"预测"下一个字，这是否是有生产力呢？它"算是"“懂"自己在说什么吗？

Ilya (前 openai 联合创始人及首席科学家) 讲过一个例子:

say you read a detective novel, and on the last page, the detective says “I am going to reveal the identity of the criminal, and that person’s name is ……“你读到侦探小说的最后一页，侦探说我即将揭露凶手是谁，他就是….

如果 LLM 总是可以稳定的、正确的猜测到凶手，那我们姑且可以说他"理解"了这本小说吧，至少超越了许多猜错的读者。

而我们必须正确评价"理解”，理解其实是为了预测未来，各个古文明不约而同研究天文、水文，

就是为了预测接下来的气候、河道改变及旱涝等等，在客观环境下更好的生存。

甚至可以说，预测正确比理解更重要。

人文: 人跟 agent 都还是黑盒子
#

预测未来，是自然科学的追求及必要条件(可再现性)，更是社会科学的圣杯。

这的确是有点科幻，在艾西莫夫的基地系列科幻小说里，这种预测未来的学科被虚构为"心理史学”:

经济学家、历史学家、心理学家、社会科学…都想知道个人及社会，对特定事件会如何反应，

特别是金融大概是软件业以外，AI 最被用力使用的领域。

虽然还无法看到终点，这件事的可行性已经有了显著的提升。

它的提升以及局限在于，我们多了一个很棒的黑盒子(LLM agent)，

在某些跟人类程度相当的任务上，它超快成本超低，适合取代人类;

而局限在于它现在的使用方式类似吃角子老虎机，我们可以用一些技巧(prompt context enginering)提升他的中奖率，但也仅此于此

但是我们很难把黑盒子打开，把几个黑盒子串联起来的效果提升有限(multi-agent)。

目前单 agent 做得到的任务做得又快又好，但是更抽象的任务难以线性提升。

应用在社会科学里，一个 agent 都无法完好的模拟一个各人的记忆跟情感，遑论让 multi-agent 模拟一个群体。

乐观的是，这比较像是性能问题，这个范式的性能未来还会继续提升。

沙盘: 不要只想着一击必杀
#

既然是黑盒子的话，直觉的想法就是找一个小一点的盒子来尝试破解。

假设目前的模型能力基准是前面提到的，将任何一本侦探小说丢进 LLM 这台角子老虎机，它能够直接(one shot)且正确地吐出凶手是谁。

在此基准上，我们多做一些苦工，搭建一些脚手架，多跟 LLM 来回讨论，想办法把成果在每次的讨论中线性的累积，理论上就能够做难度更高的预测。

红楼梦是完美的目标，依据前八十回的内容，让它程度上预测后四十回。

这个预测难度很高，但对我的工作目标来说刚刚好，理论上机会不是零，实际上不太可能，很适合在近几年观测 LLM 能力的成长。

写到这里终于可以提出两个工作目标:

如何做额外的功夫，让 one shot 得不到的答案可以尝试接近。
要如何选择战场，让我们的成果不会直接被更强的模型取代，甚至在未来模型进步时，让我们的架构也受益。

以下开始根据红楼梦以及 LLM 的特性考虑研究方法

假设
#

假设红楼梦的结局确实曾经存在，并且前八十回与后续结局是有机、有意识的连续写作，如同前八十回彼此的内在关联。

若实际上不存在，那预测难度更高，接近预测平行宇宙，问题会变成如果曹雪芹有写完结局，“一定"是写成怎样;

这个"一定"是重点，要有信心到这个程度，无中生有才有意义。

红楼梦成书
#

约在 1750 年代，此时多半在亲友之前传阅，到 1791 年程伟元出版木活字排版印刷，才为大众所知。

红学&AI 辅助研究
#

王国维及胡适等为红学的先驱，红学持续发展，一直到近年有大众化娱乐化的趋势。探佚学与癸酉本的关注度可见大众对结局的好奇。

搭配最新技术的研究成果主要是:

机器学习再次证明后四十回不是原作者所著
使用 LLM 对文字做更细致的语义向量化 Word Embedding
使用 LLM 建立知识图谱 Domain-specific Graph 等…
有针对前八十回及清代古籍作为输入数据训练的模型

LLM 特性
#

LLM 跟此任务相关的特性是:它是现有网络上所有数据，以及这些前沿 AI 实验室所能够得到的所有有价值的材料，所训练出来的。

对于既有的信息它预测能力跟倾向很高，比如你输入哈利波特书中的一个片段，它可以背诵出后面的段落。

但是红楼梦的后四十回并没有流传，没有在模型的训练数据里面，他无法背诵。

问题一:窗口限制
#

如果我们直接输入一到八十回的内容，请 LLM 输出后面四十回，可行吗

输入端目前在第一梯队的模型(gemini 3.1/gpt5.4/opus4.6) 使用 API 模式，如果能支持到 1M tokens 没有问题，

但以目前模型的范式，输出 token 窗口会远小于输入，输出会局限在最多四千到八千个中文字，大约只能输出一回的内容。

问题二:流水账与质量下降
#

那如果我们将给 LLM 的输入改成，请输出第八十一回的内容，可行吗

他会被大量文本的输入"污染”，行文风格非常像曹雪芹，他可以合理延续前面已知的剧情，但是会像流水账。

然后像似的动作，八十二、八十三回…质量会急剧的下降。

问题三:模型的先验污染
#

另外一个问题是，模型当初训练时，他已经看过高鹗的版本，各种论文的推测，如果这些信息不符合正本，输出会被带偏。

待续
#

因篇幅过长，在此做个收尾及下回预告。

我们无法单纯的让 LLM 直接吐出未知的信息，

所以还是需要更传统，机械式或程序化的方法，

好消息是，笔耕不辍的文史哲研究者们，我们有耕耘机了!

红楼梦具有高度结构化属性，里面重要人物有自己的判词暗示人物的结局，

并且前八十回可以彼此互相验证，所以他比其他许多虚构的作品更适合预测，

虽然里面人物众多背景复杂，但实际上我们预测的是曹公的想法，他的艺术意志贯彻全书，这对预测结局有很大的帮助。

下一篇:红楼梦热力学
#

下回会介绍实验的方式，结构化抽取文本的内容，反复实验抽取书中规则，并用程序反复做实验。

最理想化的情况是能够热力学系统一样：给定初始条件(premise，例:人物、家族财富、社经地位、人际网络…)，加上系统的运作机制（人性心理、社会阶级、经济动态、文化规范、因果报应等…），就能够预测后续任意时间点的系统状态。

前言#

天文: 不只是文字接龙而已#

人文: 人跟 agent 都还是黑盒子#

沙盘: 不要只想着一击必杀#

假设#

红楼梦成书#

红学&AI 辅助研究#

LLM 特性#

问题一:窗口限制#

问题二:流水账与质量下降#

问题三:模型的先验污染#

待续#

下一篇:红楼梦热力学#