紅樓夢模擬器：社會科學的聖杯，大語言讖判詞

前言
#

預測未來吉凶乃至人類命運，是人類社會自古以來的一大命題，LLM(大語言模型)讓我們看到解決此問題的契機。

本文介紹將LLM作為最新的工具，並以紅樓夢作為沙盒，尋找方法預測紅樓夢後四十回。

先聲明我並沒有做到，也許未來某一天做得的時候，此文章將會被搜尋到。

此文更多的是思考文字本身，雖不像物理公式明確，

但作為人類掌握現實與推測未來的工具，比我們想像的更為重要，

文字不僅是一種"想像"的現實，並且文字並不是不客觀，他只是以最符合成本的方式映照客觀事實。

而LLM作為預測文字的自動化機制，將極致的壓縮這種現實的抽取、產生、映照客觀事實的成本。

最新的實作會更新在ios app: 紅樓夢模擬器

APP: Link

人生三大恨事：一恨鰣魚多刺，二恨海棠無香，三恨《紅樓夢》未完。

by 張愛玲

天文: 不只是文字接龍而已
#

預測未來一直是人類社會的大事，每個古文明都有專職觀星的祭司或官職，

天文、水文等符號系統將自然現象、物理規律文字化，最典型的例子就是經緯度，文字變成人類理解及影響客觀環境的重要工具。

文字與世界的映射帶來的實用性，在大語言模型(LLM)能力爆發的這幾年得到驗證。

以往語言這種工具因為不夠明確(deterministic)，在科學作為第一生產力的工業革命之後，一直處在歧視鏈的下方。

LLM 的時代終於把文字的消化與產出，帶進毫秒級的領域，並擺脫人類閱讀、打字、筆誤等阻礙。

原本極度消耗腦力及時間的工作，現在有機會跟生產線一樣組裝配置。

生產線產出的是甚麼呢? LLM的本質是"預測"下一個字，這是否是有生產力呢？它"算是"“懂"自己在說甚麼嗎？

Ilya (前openai聯合創始人及首席科學家) 講過一個例子:

say you read a detective novel, and on the last page, the detective says “I am going to reveal the identity of the criminal, and that person’s name is ……“你讀到偵探小說的最後一頁，偵案說我即將揭露兇手是誰，他就是….

如果LLM 總是可以穩定的、正確的猜測到兇手，那我們姑且可以說他"理解"了這本小說吧，至少超越了許多猜錯的讀者。

而我們必須正確評價"理解”，理解其實是為了預測未來，各個古文明不約而同研究天文、水文，

就是為了預測接下來的氣候、河道改變及旱澇等等，在客觀環境下更好的生存。

甚至可以說，預測正確比理解更重要。

人文: 人跟agent都還是黑盒子
#

預測未來，是自然科學的追求及必要條件(可再現性)，更是社會科學的聖杯。

這的確是有點科幻，在艾西莫夫的基地系列科幻小說裡，這種預測未來的學科被虛構為"心理史學”:

經濟學家、歷史學家、心理學家、社會科學…都想知道個人及社會，對特定事件會如何反應，

特別是金融大概是軟體業以外，AI最被用力使用的領域。

雖然還無法看到終點，這件事的可行性已經有了顯著的提升。

它的提升以及侷限在於，我們多了一個很棒的黑盒子(LLM agent)，

在某些跟人類程度相當的任務上，它超快成本超低，適合取代人類;

而侷限在於它現在的使用方式類似吃角子老虎機，我們可以用一些技巧(prompt context enginering)提升他的中獎率，但也僅此於此

但是我們很難把黑盒子打開，把幾個黑盒子串聯起來的效果提升有限(multi-agent)。

目前單agent作得到的任務做得又快又好，但是更抽象的任務難以線性提升。

應用在社會科學裡，一個agent都無法完好的模擬一個各人的記憶跟情感，遑論讓multi-agent 模擬一個群體。

樂觀的是，這比較像是性能問題，這個範式的性能未來還會繼續提升。

沙盤: 不要只想著一擊必殺
#

既然是黑盒子的話，直覺的想法就是找一個小一點的盒子來嘗試破解。

假設目前的模型能力基準是前面提到的，將任何一本偵探小說丟進LLM這台角子老虎機，它能夠直接(one shot)且正確地吐出兇手是誰。

在此基準上，我們多做一些苦工，搭建一些鷹架，多跟LLM 來回討論，想辦法把成果在每次的討論中線性的累積，理論上就能夠做難度更高的預測。

紅樓夢是完美的目標，依據前八十回的內容，讓它程度上預測後四十回。

這個預測難度很高，但對我的工作目標來說剛剛好，理論上機會不是零，實際上不太可能，很適合在近幾年觀測LLM能力的成長。

寫到這裡終於可以提出兩個工作目標:

如何做額外的功夫，讓one shot得不到的答案可以嘗試接近。
要如何選擇戰場，讓我們的成果不會直接被更強的模型取代，甚至在未來模型進步時，讓我們的架構也受益。

以下開始根據紅樓夢以及LLM的特性考慮研究方法

假設
#

假設紅樓夢的結局確實曾經存在，並且前八十回與後續結局是有機、有意識的連續寫作，如同前八十回彼此的內在關聯。

若實際上不存在，那預測難度更高，接近預測平行宇宙，問題會變成如果曹雪芹有寫完結局，“一定”是寫成怎樣;

這個"一定"是重點，要有信心到這個程度，無中生有才有意義。

紅樓夢成書
#

約在1750年代，此時多半在親友之前傳閱，到1791年程偉元出版木活字排版印刷，才為大眾所知。

紅學&AI 輔助研究
#

王國維及胡適等為紅學的先驅，紅學持續發展，一直到近年有大眾化娛樂化的趨勢。探佚學與癸酉本的關注度可見大眾對結局的好奇。

搭配最新技術的研究成果主要是:

機器學習再次證明後四十回不是原作者所著
使用LLM對文字做更細緻的語意向量化Word Embedding
使用LLM建立知識圖譜Domain-specific Graph 等…
有針對前八十回及清代古籍作為輸入資料訓練的模型

LLM特性
#

LLM跟此任務相關的特性是:它是現有網路上所有資料，以及這些前沿AI實驗室所能夠得到的所有有價值的材料，所訓練出來的。

對於既有的資訊它預測能力跟傾向很高，比如你輸入哈利波特書中的一個片段，它可以背誦出後面的段落。

但是紅樓夢的後四十回並沒有流傳，沒有在模型的訓練資料裡面，他無法背誦。

問題一:窗口限制
#

如果我們直接輸入一到八十回的內容，請LLM輸出後面四十回，可行嗎

輸入端目前在第一梯隊的模型(gemini 3.1/gpt5.4/opus4.6) 使用API模式，如果能支援到1M tokens沒有問題，

但以目前模型的範式，輸出token窗口會遠小於輸入，輸出會局限在最多四千到八千個中文字，大約只能輸出一回的內容。

問題二:流水帳與品質下降
#

那如果我們將給LLM的輸入改成，請輸出第八十一回的內容，可行嗎

他會被大量文本的輸入"汙染”，行文風格非常像曹雪芹，他可以合理延續前面已知的劇情，但是會像流水帳。

然後像似的動作，八十二、八十三回…品質會急遽的下降。

問題三:模型的先驗汙染
#

另外一個問題是，模型當初訓練時，他已經看過高鶚的版本，各種論文的推測，如果這些資訊不符合正本，輸出會被帶偏。

待續
#

因篇幅過長，在此做個收尾及下回預告。

我們無法單純的讓LLM直接吐出未知的資訊，

所以還是需要更傳統，機械式或程式化的方法，

好消息是，筆耕不輟的文史哲研究者們，我們有耕耘機了!

紅樓夢具有高度結構化屬性，裡面重要人物有自己的判詞暗示人物的結局，

並且前八十回可以彼此互相驗證，所以他比其他許多虛構的作品更適合預測，

雖然裡面人物眾多背景複雜，但實際上我們預測的是曹公的想法，他的藝術意志貫徹全書，這對預測結局有很大的幫助。

下一篇:紅樓夢熱力學
#

下回會介紹實驗的方式，結構化抽取文本的內容，反覆實驗抽取書中規則，並用程式反覆做實驗。

最理想化的情況是能夠熱力學系統一樣：給定初始條件(premise，例:人物、家族財富、社經地位、人際網路…)，加上系統的運作機制（人性心理、社會階級、經濟動態、文化規範、因果報應等…），就能夠預測後續任意時間點的系統狀態。

前言#

天文: 不只是文字接龍而已#

人文: 人跟agent都還是黑盒子#

沙盤: 不要只想著一擊必殺#

假設#

紅樓夢成書#

紅學&AI 輔助研究#

LLM特性#

問題一:窗口限制#

問題二:流水帳與品質下降#

問題三:模型的先驗汙染#

待續#

下一篇:紅樓夢熱力學#