Giấc mơ về căn phòng đỏ giả lập: Chén thánh của khoa học xã hội và LLM như một câu thơ tiên tri

Mục lục

Lời nói đầu
#

Dự đoán tương lai - từ vận may và bất hạnh đến số phận của nhân loại - là một trong những thách thức lớn của nền văn minh nhân loại kể từ thời cổ đại. Mô hình ngôn ngữ lớn (LLM) hiện mang đến cho chúng ta một tia hy vọng để giải quyết vấn đề này.

Bài viết này khám phá việc sử dụng LLM làm công cụ mới nhất, với Hồng Lâu Mộng (紅樓夢) đóng vai trò như một hộp cát, để tìm ra phương pháp dự đoán bốn mươi chương cuối cùng của cuốn tiểu thuyết bị thất lạc.

Hãy để tôi nói trước: Tôi đã không thành công. Có lẽ một ngày nào đó khi có ai đó làm vậy, bài viết này sẽ xuất hiện trong kết quả tìm kiếm của họ.

Phần này giống như một sự thiền định về bản chất của văn bản. Trong khi văn bản thiếu độ chính xác của các công thức vật lý,

như một công cụ để nhân loại nắm bắt thực tế và suy đoán về tương lai, nó quan trọng hơn nhiều so với những gì chúng ta tưởng tượng.

Văn bản không chỉ đơn thuần là một thực tế được “tưởng tượng” - nó vốn không mang tính chủ quan. Nó chỉ đơn giản phản ánh thực tế khách quan theo cách tiết kiệm chi phí nhất có thể.

Và LLM, với tư cách là cơ chế tự động để dự đoán văn bản, sẽ giảm đáng kể chi phí trích xuất, tạo và phản ánh thực tế khách quan.

Việc triển khai mới nhất sẽ được cập nhật trong ứng dụng iOS: Dream of the Red Chamber Simulator.

ỨNG DỤNG: Liên kết

Ba điều hối tiếc lớn nhất của cuộc đời: Thứ nhất, con cá có quá nhiều xương; thứ hai, hoa mai không có mùi thơm; thứ ba, Giấc mơ Hồng Lâu đó chưa bao giờ kết thúc.

— Trương Ái Linh (張愛玲)

Các mô hình thiên thể: Không chỉ là dự đoán từ ngữ
#

Dự đoán tương lai luôn là vấn đề có tầm quan trọng lớn trong xã hội loài người. Mọi nền văn minh cổ đại đều có các linh mục hoặc quan chức chuyên quan sát các vì sao.

Các hệ thống biểu tượng như thiên văn học và thủy văn đã văn bản hóa các hiện tượng tự nhiên và các quy luật vật lý. Ví dụ tinh túy nhất là hệ tọa độ vĩ độ và kinh độ - văn bản đã trở thành một công cụ quan trọng để nhân loại hiểu và tác động đến thế giới khách quan.

Sức mạnh thực tế của việc ánh xạ giữa văn bản và thực tế này đã được xác nhận trong những năm gần đây về khả năng LLM bùng nổ.

Trong quá khứ, ngôn ngữ như một công cụ không có tính quyết định đủ cao. Sau Cách mạng Công nghiệp, khi khoa học trở thành động lực chính cho năng suất, ngôn ngữ vĩnh viễn bị xếp xuống đáy của hệ thống phân cấp uy tín.

Thời đại LLM cuối cùng đã đưa quá trình tiêu hóa và sản xuất văn bản vào phạm vi mili giây, giải phóng nó khỏi những hạn chế về tốc độ đọc, tốc độ đánh máy và lỗi đánh máy của con người.

Công việc từng tiêu tốn rất nhiều năng lượng tinh thần và thời gian giờ đây có khả năng được lắp ráp và cấu hình giống như một dây chuyền sản xuất.

Nhưng dây chuyền sản xuất này sản xuất ra những gì? Bản chất của LLM là “dự đoán” mã thông báo tiếp theo. Điều này có thực sự hiệu quả? Mô hình có “đại loại” “hiểu” những gì nó đang nói không?

Ilya Sutskever (cựu đồng sáng lập và nhà khoa học trưởng của OpenAI) từng đưa ra ví dụ này:

Giả sử bạn đọc một cuốn tiểu thuyết trinh thám và ở trang cuối cùng, thám tử nói “Tôi sẽ tiết lộ danh tính của tên tội phạm, và tên của người đó là…”

Nếu một LLM có thể đoán chính xác và nhất quán danh tính của thủ phạm, thì chúng ta có thể tạm nói rằng nó “hiểu” cuốn tiểu thuyết - ít nhất là vượt qua số lượng độc giả đoán sai.

Và chúng ta phải đánh giá đúng ý nghĩa của “hiểu biết”. Sự hiểu biết cuối cùng là để dự đoán tương lai. Mọi nền văn minh cổ đại, không có ngoại lệ, đều nghiên cứu thiên văn học và thủy văn

chính xác để dự báo các kiểu khí hậu sắp tới, những thay đổi của dòng sông, hạn hán và lũ lụt - để tồn tại tốt hơn trong môi trường khách quan.

Người ta thậm chí có thể lập luận rằng việc dự đoán chính xác quan trọng hơn sự hiểu biết.

Nhân văn: Cả con người và đặc vụ vẫn là hộp đen
#

Dự đoán tương lai là sự theo đuổi và điều kiện tiên quyết (khả năng tái tạo) của khoa học tự nhiên và là chén thánh của khoa học xã hội.

Phải thừa nhận rằng điều này nghe có vẻ giống khoa học viễn tưởng. Trong loạt phim Foundation của Isaac Asimov, một nguyên tắc dự đoán tương lai như vậy đã được hư cấu thành “lịch sử tâm lý” (心理史學).

Các nhà kinh tế, nhà sử học, nhà tâm lý học, nhà khoa học xã hội - tất cả đều muốn biết các cá nhân và xã hội sẽ phản ứng như thế nào trước các sự kiện cụ thể.

Đặc biệt, tài chính có lẽ là lĩnh vực ngoài phần mềm mà AI đang được ứng dụng mạnh mẽ nhất.

Mặc dù chúng ta chưa thể nhìn thấy vạch đích nhưng tính khả thi của nỗ lực này đã được cải thiện đáng kể.

Cải tiến - và hạn chế của nó - là giờ đây chúng ta có một hộp đen đáng chú ý (tác nhân LLM).

Đối với các nhiệm vụ ở mức tương đương với hiệu suất của con người, nó cực kỳ nhanh và cực kỳ rẻ, khiến nó phù hợp để thay thế sức lao động của con người.

Hạn chế là chế độ sử dụng hiện tại của nó giống với một máy đánh bạc. Chúng tôi có thể sử dụng một số kỹ thuật nhất định (kỹ thuật nhắc nhở/ngữ cảnh) để cải thiện tỷ lệ trúng, nhưng chỉ có vậy thôi.

Chúng tôi đấu tranh để mở hộp đen. Việc kết hợp nhiều hộp đen lại với nhau (đa tác nhân) chỉ mang lại sự cải thiện hạn chế.

Hiện tại, các tác vụ mà một tác nhân duy nhất có thể xử lý được thực hiện nhanh chóng và tốt, nhưng các tác vụ trừu tượng hơn khó có thể cải thiện tuyến tính.

Áp dụng vào khoa học xã hội: một tác nhân đơn lẻ không thể mô phỏng đầy đủ ngay cả trí nhớ và cảm xúc của một cá nhân, chứ đừng nói đến việc có hệ thống đa tác nhân mô phỏng toàn bộ cộng đồng.

Về mặt lạc quan, điều này giống như một vấn đề về hiệu suất hơn - và hiệu suất trong mô hình này sẽ tiếp tục được cải thiện.

The Sandbox: Đừng nhằm mục đích giết một đòn
#

Vì chúng ta đang xử lý một hộp đen nên cách tiếp cận trực quan là tìm một hộp nhỏ hơn để cố gắng bẻ khóa.

Giả sử khả năng của mô hình cơ sở hiện tại là những gì đã được mô tả trước đó: ném bất kỳ cuốn tiểu thuyết trinh thám nào vào máy đánh bạc LLM và nó có thể trực tiếp (một lần) và đưa ra chính xác thủ phạm là ai.

Dựa trên cơ sở này, nếu chúng ta nỗ lực nhiều hơn - dựng giàn giáo, trao đổi qua lại với LLM trong cuộc thảo luận, tìm cách tích lũy kết quả một cách tuyến tính trên mỗi sàn giao dịch - về mặt lý thuyết, chúng ta sẽ có thể đưa ra dự đoán về độ khó cao hơn.

Giấc mơ Hồng Lâu là mục tiêu hoàn hảo. Dựa trên nội dung của 80 chương đầu tiên, chúng tôi yêu cầu mô hình dự đoán ở một mức độ nào đó về 40 chương cuối.

Dự đoán này cực kỳ khó khăn nhưng lại phù hợp với mục tiêu công việc của tôi. Về mặt lý thuyết, xác suất không bằng 0; thực tế thì điều đó rất khó xảy ra. Điều này làm cho nó trở thành một chuẩn mực lý tưởng để quan sát sự tăng trưởng năng lực của LLM trong những năm tới.

Đã viết đến đây, cuối cùng tôi cũng có thể nói rõ hai mục tiêu làm việc:

Làm thế nào chúng ta có thể nỗ lực hơn nữa để có thể tiếp cận dần dần những câu trả lời không thể đạt được thông qua nhắc nhở một lần?
Chúng ta nên chọn chiến trường của mình như thế nào để kết quả của chúng tôi không bị các mô hình mạnh hơn trở nên lỗi thời ngay lập tức - và lý tưởng nhất là khuôn khổ của chúng tôi cũng được hưởng lợi khi các mô hình trong tương lai được cải thiện?

Dưới đây, tôi bắt đầu xem xét các phương pháp nghiên cứu dựa trên đặc điểm của Giấc mộng hồng lâu và LLM.

Giả định
#

Chúng tôi giả định rằng phần kết của Hồng Lâu Mộng đã từng tồn tại, và 80 chương đầu tiên cũng như phần kết tiếp theo được viết như một tác phẩm có hệ thống, có chủ ý, liên tục - thể hiện sự mạch lạc nội tại tương tự như chính 80 chương đầu tiên.

Nếu cái kết chưa bao giờ thực sự tồn tại thì độ khó dự đoán thậm chí còn cao hơn - tiệm cận với dự đoán về một vũ trụ song song. Câu hỏi trở thành: nếu Cao Xueqin viết phần kết thì nó nhất thiết sẽ như thế nào?

Từ “nhất thiết” này là mấu chốt. Người ta phải đạt đến mức độ tự tin này để tạo ra thứ gì đó có ý nghĩa từ con số không.

Nội dung của Giấc mơ hồng lâu
#

Cuốn tiểu thuyết được sáng tác vào khoảng những năm 1750. Vào thời điểm đó nó chủ yếu được lưu truyền giữa bạn bè và người thân. Mãi đến năm 1791, khi Cheng Weiyuan xuất bản nó bằng loại gỗ di động, nó mới được biết đến rộng rãi.

Nghiên cứu có sự hỗ trợ của AI và Redology
#

Wang Guowei và Hu Shi là những người tiên phong của Redology (紅學 — nghiên cứu học thuật về Giấc mơ của Hồng lâu). Lĩnh vực này tiếp tục phát triển và trong những năm gần đây có xu hướng phổ biến và giải trí. Sự chú ý dành cho khảo cổ học văn bản (探佚學) và bản thảo Guiyou (癸酉本) gây tranh cãi phản ánh sự tò mò của công chúng về cái kết.

Những thành tựu nghiên cứu chính kết hợp công nghệ mới nhất bao gồm:

Học máy một lần nữa xác nhận bốn mươi chương cuối không phải do tác giả gốc viết
Sử dụng LLM để vector hóa văn bản ngữ nghĩa nhiều sắc thái hơn (Nhúng từ)
Sử dụng LLM để xây dựng biểu đồ tri thức theo miền cụ thể
Các mô hình được đào tạo cụ thể về tám mươi chương đầu tiên và văn bản lịch sử triều đại nhà Thanh làm dữ liệu đầu vào

Đặc điểm LLM
#

Đặc điểm LLM phù hợp nhất với nhiệm vụ này là: nó đã được đào tạo trên tất cả dữ liệu có sẵn trên internet, cộng với tất cả các tài liệu có giá trị mà các phòng thí nghiệm AI tiên phong này có thể thu được.

Đối với thông tin đã có trong dữ liệu huấn luyện của nó, khả năng và xu hướng dự đoán của mô hình là rất cao. Ví dụ: nếu bạn nhập một đoạn trong Harry Potter, nó có thể đọc thuộc lòng các đoạn tiếp theo theo trí nhớ.

Nhưng bốn mươi chương cuối cùng của Hồng Lâu Mộng không bao giờ được truyền lại cho hậu thế. Chúng không có trong dữ liệu huấn luyện của mô hình. Nó không thể đọc thuộc lòng chúng.

Vấn đề 1: Hạn chế của cửa sổ ngữ cảnh
#

Chúng ta có thể chỉ cần nhập các chương từ một đến tám mươi và yêu cầu LLM xuất bốn mươi chương còn lại không?

Về mặt đầu vào, các mô hình hàng đầu hiện tại (Gemini 3.1 / GPT-5.4 / Opus 4.6) sử dụng chế độ API có thể hỗ trợ tới 1 triệu mã thông báo, là đủ.

Tuy nhiên, theo mô hình hiện tại, cửa sổ mã thông báo đầu ra nhỏ hơn nhiều so với đầu vào. Đầu ra được giới hạn tối đa khoảng bốn đến tám nghìn ký tự Trung Quốc - nội dung có giá trị xấp xỉ một chương.

Vấn đề 2: Văn xuôi bơ phờ và sự suy thoái chất lượng
#

Điều gì sẽ xảy ra nếu chúng ta sửa đổi lời nhắc yêu cầu LLM chỉ xuất ra nội dung của chương 81?

Mô hình bị “nhiễm” bởi lượng văn bản nhập lớn. Phong cách viết của nó gần giống với Cao Xueqin, và nó có thể tiếp tục cốt truyện đã biết một cách hợp lý - nhưng kết quả đọc giống như một biên niên sử phẳng lặng về các sự kiện.

Sau đó, lặp lại quá trình này cho các chương 82, 83, v.v., chất lượng giảm sút nhanh chóng.

Vấn đề 3: Nhiễm bẩn trước đó trong mô hình
#

Một vấn đề khác là trong quá trình đào tạo, mô hình đã thấy phần tiếp theo của Gao E (高鶚續書), nhiều suy đoán học thuật khác nhau và các nguồn thứ cấp khác. Nếu những vật liệu này khác với phần cuối ban đầu, đầu ra sẽ bị sai lệch.

Sẽ được tiếp tục
#

Do phần này quá dài nên tôi sẽ kết thúc ở đây bằng phần xem trước nội dung tiếp theo.

Chúng tôi không thể đơn giản yêu cầu LLM trực tiếp tạo ra thông tin không xác định.

Vì vậy, chúng ta vẫn cần các phương pháp truyền thống, máy móc hoặc lập trình hơn.

Tin tốt là: đối với những nhà nghiên cứu không mệt mỏi về văn học, lịch sử và triết học - giờ đây chúng ta đã có một chiếc máy kéo để làm việc trên thực địa!

Hồng Lâu Mộng sở hữu tính chất có cấu trúc cao. Các nhân vật quan trọng đều có 判詞 (những câu thơ tiên tri, được gọi là “pànCí”) - những đoạn thơ báo trước một cách khó hiểu số phận của mỗi nhân vật.

Hơn nữa, tám mươi chương đầu tiên có thể được xác nhận chéo với nhau, khiến cuốn tiểu thuyết dễ dự đoán hơn nhiều tác phẩm hư cấu khác.

Mặc dù dàn nhân vật đông đảo và xuất thân phức tạp, điều cuối cùng chúng ta dự đoán là tầm nhìn nghệ thuật của Cao Xueqin — ý chí sáng tạo của anh ấy thấm nhuần toàn bộ tác phẩm. Đây là một trợ giúp to lớn để dự đoán kết thúc.

Tiếp theo: Nhiệt động lực học của Giấc mộng Hồng lâu
#

Bài viết tiếp theo sẽ giới thiệu cách tiếp cận thử nghiệm: trích xuất cấu trúc nội dung từ văn bản, thử nghiệm lặp đi lặp lại để trích xuất các quy tắc có trong tiểu thuyết và sử dụng mã để chạy các thử nghiệm lặp đi lặp lại.

Kịch bản lý tưởng hóa giống như một hệ thống nhiệt động lực học: với các điều kiện ban đầu (tiền đề - ví dụ: tính cách, sự giàu có của gia đình, tình trạng kinh tế xã hội, mạng lưới giữa các cá nhân…) cộng với các cơ chế vận hành của hệ thống (tâm lý con người, thứ bậc xã hội, động lực kinh tế, chuẩn mực văn hóa, quả báo, v.v.), người ta có thể dự đoán trạng thái của hệ thống tại bất kỳ thời điểm nào tiếp theo.

Lời nói đầu#

Các mô hình thiên thể: Không chỉ là dự đoán từ ngữ#

Nhân văn: Cả con người và đặc vụ vẫn là hộp đen#

The Sandbox: Đừng nhằm mục đích giết một đòn#

Giả định#

Nội dung của Giấc mơ hồng lâu#

Nghiên cứu có sự hỗ trợ của AI và Redology#

Đặc điểm LLM#

Vấn đề 1: Hạn chế của cửa sổ ngữ cảnh#

Vấn đề 2: Văn xuôi bơ phờ và sự suy thoái chất lượng#

Vấn đề 3: Nhiễm bẩn trước đó trong mô hình#

Sẽ được tiếp tục#

Tiếp theo: Nhiệt động lực học của Giấc mộng Hồng lâu#