Chuyển đến nội dung chính
  1. Blog/

Giấc mơ về căn phòng đỏ: Nhiệt động lực học và sự lựa chọn nghệ thuật

QQder · Chiếc thuyền hạt
Tác giả
QQder · Chiếc thuyền hạt
Tám ứng dụng iOS — tất cả đều miễn phí, không quảng cáo, không theo dõi. Hãy chọn một và dùng thử. Đồng thời là nhật ký ghi lại quá trình một sysadmin xuất thân nhân văn xây ứng dụng từ con số 0 với AI vibe coding.

URL ứng dụng: LINK

Lời nói đầu
#

Điểm mấu chốt từ phần trước

là coi văn bản về cơ bản là mang tính biểu tượng –

thiên văn học, thủy văn, nhân văn… tất cả các chữ “wen” (文, hình mẫu/văn bản) của trời, đất và loài người.

Văn bản lập bản đồ thế giới và suy nghĩ theo cách tiết kiệm chi phí,

trở thành công cụ chính của chúng ta để hiểu và giao tiếp với thực tế khách quan.

Một khi bạn nắm bắt được điều này, bạn sẽ nhận ra rằng

mặc dù LLM (Mô hình ngôn ngữ lớn) về cơ bản chỉ là công cụ dự đoán mã thông báo tiếp theo,

một khi khả năng của chúng đạt đến một mức độ nhất định, chúng sẽ trở thành công cụ cấp hạt nhân có tầm quan trọng quốc gia.

Tầm quan trọng của chúng khiến tôi muốn kiểm chứng khả năng của chúng

và làm như vậy nhiều lần khi chúng được cải thiện theo thời gian.

Một chuẩn mực gần như hoàn hảo cho điều này là Hồng Lâu Mộng (紅樓夢, Hong Lou Meng).

Giả sử tồn tại một LLM toàn tri, toàn năng –

có thể lấy 80 chương đầu tiên của Hồng Lâu Mộng của Tào Tuyết Cần làm đầu vào và đầu ra cho các chương tiếp theo.

Nhưng vì dữ liệu đào tạo LLM còn hạn chế nên

nó giống như trò chơi Sudoku với quá ít con số – không thể xác định được câu trả lời một cách chắc chắn.

Những gì LLM hiện tại có thể làm là tạo ra thông lượng rất cao trong phạm vi những gì họ hiểu.

Mục đích của Dream of the Red Chamber Simulator là, với năng suất như vậy,

sử dụng các phương pháp có cấu trúc truyền thống để nhanh chóng tạo ra và tích lũy kết quả với nỗ lực tối thiểu của con người.

Giả định
#

Chúng ta cần một số giả định, thành kiến ​​và lý thuyết để thực hiện nhiệm vụ dự đoán cái kết đủ khả thi và máy móc.

Khi nói đến dự đoán chính xác, trực giác của tôi hướng về vật lý cổ điển – cụ thể là nhiệt động lực học.

Trong một hệ kín, nếu chúng ta xác định các điều kiện ban đầu và các định luật điều chỉnh,

sự phát triển của một hệ nhiệt động có thể dự đoán được và mang tính quyết định.

Một giả định khác là khả năng LLM sẽ tiếp tục được cải thiện,

nhưng trong tương lai gần, chúng ta sẽ không thu được thêm dữ liệu đào tạo từ nhà Thanh hay từ chính Tào Tuyết Cần.

Do đó, chúng tôi có thể thiết lập một quy trình làm việc có cấu trúc mà cả LLM hiện tại và tương lai đều có thể thực hiện.

Điều kiện ban đầu
#

Các điều kiện ban đầu chủ yếu là dữ liệu được trích xuất từ ​​tiểu thuyết gốc.

Bây giờ chúng tôi sử dụng LLM để thực hiện những công việc đòi hỏi nhiều lao động trước đây.

Trước đây, chi phí nhân công quá cao và việc huy động thêm người vào giải quyết vấn đề không thể nén được dòng thời gian.

Nếu bạn đã đi được nửa chặng đường và muốn điều chỉnh các quy tắc trích xuất và bắt đầu lại thì điều đó đơn giản là không thực tế.

Thời gian và chi phí không còn là trở ngại nữa; chất lượng trích xuất bây giờ phụ thuộc vào khả năng của mô hình.

Ví dụ: tôi đã trích xuất:

  • Hồ sơ nhân vật chính, hồ sơ nhân cách, gia phả;

  • Ảnh chụp nhanh mỗi chương về trạng thái kinh tế, xã hội, cảm xúc, sức khỏe và giữa các cá nhân của mỗi nhân vật trong tất cả 120 chương;

  • Bản đồ không gian cơ bản của điền trang Jia (賈) với siêu dữ liệu không gian;

  • Tất cả các ghi âm hội thoại, tập thơ…

Cách tiếp cận này bắt đầu bằng việc trích xuất rộng rãi, chưa chặt chẽ mà ít nhất đạt được mức độ bao phủ cao – đảm bảo mọi đoạn văn bản đều được phân loại thành một số danh mục.

Luật điều chỉnh
#

Tôi chia các quy luật điều chỉnh thành hai loại theo nhận định của riêng mình: những quy luật cơ bản của thế giới và ý chí nghệ thuật của tác giả.

Phải thừa nhận rằng điều này là tùy tiện, nhưng nếu không đưa ra một số phán xét như vậy thì công việc sẽ không thể tiếp tục được.

Các quy tắc thế giới bao gồm nhưng không giới hạn ở:

  • Xã hội: thứ bậc giai cấp, động lực quyền lực, quan hệ chủ tớ, hôn nhân;

  • Kinh tế: thu chi, nợ nần, rủi ro bị tịch thu tài sản;

  • Văn hóa: Lễ phép, lễ hội, giá trị phong kiến ​​của Nho giáo;

  • Tâm lý: cảm xúc nhân vật, hành vi định hướng nhân cách, mâu thuẫn nội tâm;

  • Chính trị: ân huệ của triều đình, động thái triều đình, ngoại lực…

Ý chí nghệ thuật chính xác là điều khiến Dream of the Red Chamber – ngoại trừ việc nó thiếu một kết thúc dứt khoát – trở thành một mục tiêu dự đoán lý tưởng.

Cao Xueqin đã đưa ra những gợi ý về số phận của các nhân vật xuyên suốt cuốn tiểu thuyết, ngay từ đầu.

Ví dụ tiêu biểu nhất là 判詞 (thơ tiên tri/thơ phán xét) của 十二金釵 (Kim Lăng Thập Nhị Mỹ Nhân), báo trước rõ ràng về số phận của nữ chính và nhân vật chính:

可嘆停機德,堪憐詠絮才。玉帶林中掛,金簪雪裡埋。

(Đáng thương thay đức hạnh dừng khung cửi; đáng thương thay tài niệm liễu liễu. Trong rừng treo chiếc thắt lưng ngọc, chiếc trâm vàng nằm vùi trong tuyết.)

Công cụ quy tắc
#

Với những điều kiện ban đầu và các quy luật điều chỉnh, chúng ta áp dụng chúng như thế nào?

Cách tiếp cận lý tưởng hơn là xây dựng một công cụ vật lý 3D tương tự như công cụ trò chơi, trong đó mỗi nhân vật chỉ sở hữu thông tin mà họ biết và để một chatbot AI đóng vai từng nhân vật giống như một diễn viên đang thực hiện một vai.

Nhưng trước tiên, chi phí sẽ quá cao và chỉ làm tăng tính hoành tráng – chúng tôi sẽ không đưa ra thông tin mới và công cụ 3D sẽ không tạo ra kết quả mới.

Thứ hai, chúng tôi không chạy mô phỏng động lực học chất lỏng trong hầm gió; chúng tôi đang cố đoán xem Cao Xueqin đang nghĩ gì. Ở mức độ văn bản là đủ cho bây giờ.

Dựa trên dữ liệu được trích xuất trước đó, chúng tôi rút ra một tập hợp các chủ đề và quy tắc tính toán.

Trong thực tế, đây là quy trình truyền thống nhằm đánh giá bằng chứng, độ tin cậy và các điều chỉnh cộng/trừ về việc liệu một sự kiện có xảy ra hay không –

được thực hiện một cách có hệ thống, có thể lặp lại, có thể sửa đổi và bị ép buộc một cách tàn bạo.

Các bước mô phỏng cho mỗi vòng là:

  1. Xử lý các hiệu ứng bị trì hoãn – kiểm tra các hiệu ứng đang chờ xử lý; áp dụng bất kỳ điều gì đã đạt đến chương đến hạn của họ.

  2. Đánh giá tất cả các luật - kiểm tra các tiền đề của từng luật để xem liệu tất cả có thỏa mãn hay không (bỏ qua những tiền đề có độ tin cậy < 0,3).

  3. Giải quyết xung đột - các luật được kích hoạt đồng thời có thể mâu thuẫn với nhau; phân xử bên nào thắng.

  4. Áp dụng hiệu ứng – những hiệu ứng có độ trễ sẽ được đưa vào hàng đợi; những người không trực tiếp sửa đổi trạng thái.

  5. Ảnh chụp nhanh - nén trạng thái hiện tại thành một vectơ số.

  6. chương += 1

Một ví dụ đầy đủ – cái chết của Lin Daiyu (林黛玉) trong Chương 98 - được đính kèm ở cuối bài viết này.

Tóm tắt quy trình làm việc
#

Trong số một số thành phần trong quy trình làm việc trên,

liệu dữ liệu được trích xuất có nghiêm ngặt về mặt học thuật hay không, liệu các quy tắc có hợp lý và có thể áp dụng được hay không, liệu các bước mô phỏng có hợp lý hay không –

không có điều nào trong số này là cực kỳ quan trọng vì mỗi bộ phận đều có thể được cải thiện và tái tạo một cách độc lập.

Từ góc độ kỹ thuật phần mềm, mục tiêu của tôi là làm cho công cụ này hoạt động tốt ở cấp độ giao diện,

và liên tục tinh chỉnh các kết quả dự đoán khi có nhiều thông tin hơn được kết hợp và phương pháp luận được cải thiện.

Kết quả hiện tại: So sánh song song khách quan và chủ quan
#

Ở đây tôi phải giới thiệu một phương pháp tự áp đặt khác để cho phép so sánh có cấu trúc:

chia các lớp của công cụ suy luận thành hai phần chính – điều kiện khách quan và lựa chọn nghệ thuật.

Điều kiện khách quan
#

Bối cảnh lịch sử của thời đại mà cuốn tiểu thuyết được viết ra - các nhân vật, bối cảnh, chế độ phong kiến, nền kinh tế, v.v. - tạo thành lớp điều kiện khách quan đầu tiên. Điều này có thể phân định toàn bộ phạm vi mà câu chuyện có thể chứa đựng. Chúng tôi đã rút ra một số quy luật khách quan dựa trên bối cảnh lịch sử và tài liệu học thuật phù hợp với từng thời kỳ.

Ngược lại, về mặt lý thuyết, bất cứ thứ gì thực sự tồn tại trong thời đại đó đều có thể xuất hiện và ảnh hưởng đến câu chuyện.

Ví dụ, cuốn tiểu thuyết đã đề cập đến một số đồ vật hiện đại của phương Tây như đồng hồ tự nổi và đồng hồ bỏ túi. Điều gì sẽ xảy ra nếu súng ống phương Tây xuất hiện và trở thành yếu tố thúc đẩy cốt truyện quan trọng?

Việc khám phá một cách thấu đáo những khả năng khách quan ở lớp đầu tiên như vậy là một hướng đi cho công việc trong tương lai và có thể đạt được hiệu quả “vượt quá mức mong đợi”.

Lựa chọn nghệ thuật
#

Lớp thứ hai là sự tu luyện của tác giả Cao Xueqin (曹雪芹) về thế giới hư cấu này.

Nhiều nhân vật và quỹ đạo chung của gia đình mang màu sắc chí mạng nặng nề.

Vô số bài thơ và ẩn dụ trong cuốn tiểu thuyết - cũng như những chú thích bên lề của một người bạn được cho là đã đọc phần kết - gợi ý về điều này.

Vì vậy, chúng ta có thể sử dụng bối cảnh và kinh nghiệm sống của tác giả

để suy ra số phận ông ấy đã chọn cho các nhân vật của mình,

và từ đó bộc lộ những giá trị mà anh ấy thực sự mong muốn thể hiện.

So sánh chéo
#

Từ đây, chúng ta có thể coi phần tiếp theo của Gao E (高鶚) là tác phẩm của “người chơi” tiên tiến nhất cho đến nay.

Những gì anh ấy đã làm về cơ bản cũng giống như những gì tôi đang làm bây giờ:

dựa trên các nhân vật và bối cảnh trong tiểu thuyết, cố gắng đưa ra những lựa chọn nghệ thuật của Cao Xueqin một cách sát sao nhất có thể.

Hơn nữa, Gao E đã hoàn thành phần kết hiện có, điều này làm tăng đáng kể lượng phát hành của cuốn tiểu thuyết và phiên bản của anh ấy đã được chấp nhận rộng rãi - vì vậy chúng tôi đặt phiên bản của anh ấy ở vị trí song song để so sánh.

Mô phỏng thực tế
#

Điều gì sẽ xảy ra nếu chúng ta loại bỏ mọi cách xử lý nghệ thuật và chỉ giữ lại những quy luật khách quan, để câu chuyện diễn biến một cách tự nhiên?

Kết quả là hầu hết các sự kiện cốt truyện sẽ không xảy ra trong khoảng 120 chương. Câu chuyện sẽ ít kịch tính hơn và chứa ít bi kịch hơn.

Phương pháp cải thiện chất lượng dự đoán
#

  • Trích xuất lại văn bản khi khả năng LLM được cải thiện

  • Sự can thiệp của con người nhiều hơn để tinh chỉnh và thử nghiệm các lời nhắc khác nhau

  • Tranh thủ các học giả về Redology (紅學, nghiên cứu học thuật về Hồng Lâu Mộng) hoặc các nhà sử học để hỗ trợ làm sạch dữ liệu và điều chỉnh logic động cơ

  • Kết hợp các tài liệu mới được phát hiện hoặc chưa được số hóa trước đây (nếu có) vào đào tạo

  • Thử nghiệm các phương pháp thay thế

  • Thiết lập quy trình làm việc cố định và để các tác nhân AI liên tục tinh chỉnh và tạo ra nhiều phiên bản; vì không có tiêu chí chấm dứt rõ ràng nên chất lượng chỉ có thể được đánh giá một cách thủ công

Phần kết luận
#

Do những hạn chế của dữ liệu hiện có và được đào tạo trước cũng như tính nhất quán nội tại mạnh mẽ của Giấc mộng Hồng lâu như một tác phẩm nghệ thuật,

những dự đoán của deus ex machina khó có thể xuất hiện. Thay vào đó, những gì chúng ta thấy là sự khác biệt mang tính so sánh nội tại –

chẳng hạn, việc gia tộc Jia bị tịch thu và suy tàn là điều tất yếu sẽ xảy ra; sự khác biệt chỉ nằm ở thời gian.

Sự suy ngẫm cuối cùng
#

Loại công việc này ban đầu cần ít nhất một đến hai năm và ít nhất một người làm việc toàn thời gian để hoàn thành.

Bây giờ tôi có thể sử dụng thời gian sau giờ làm việc của mình để đóng một vai trò chuyên môn khác - điều này cũng thỏa mãn sự tiếc nuối khi áp lực tài chính buộc tôi phải chuyển ngành nhiều năm trước.

Tôi hy vọng rằng việc chia sẻ quá trình suy nghĩ đằng sau việc xây dựng Mô phỏng Hồng lâu mộng sẽ hữu ích với bạn,

và tôi mong muốn các ngành khoa học xã hội – không chỉ khoa học máy tính và khoa học tự nhiên – được hưởng lợi từ những tiến bộ nhanh chóng của AI.


Phụ lục: Ví dụ về quy trình mô phỏng đầy đủ
#

Chương 97-98, “Cái chết của Lin Daiyu” (黛玉之死) – hướng dẫn đầy đủ về tất cả sáu bước (nội dung sau được tạo ra bởi AI):


Ví dụ: Chương 97 – Âm mưu Switcheroo (掉包計) -> Đốt bản thảo và cắt đứt quan hệ (焚稿斷情) -> Cái chết của Daiyu

Trạng thái nền (vào Chương 97)

Sau hơn chục chương suy sụp tích lũy, trạng thái của Lin Daiyu là:

đặc vụ.林黛玉: sức khỏe=0,12, tâm trạng=0,08, cô lập=0,72, bi kịch_rủi ro=0,95, sống=Đúng

đặc vụ.賈寶玉: tu sĩ_tendency=0,35, tâm trạng=0,20

nền kinh tế: nợ_ratio=0,65

chính trị: gia đình_decides_marriage=True

quan hệ.賈寶玉::林黛玉: hôn nhân_xác suất=0,15

quan hệ.賈寶玉::薛寶釵: hôn nhân_xác suất=0,72

Tại sao máu của Daiyu lại giảm từ 0,35 ban đầu xuống 0,12? Bởi vì định luật này đã âm thầm kích hoạt từng chương:

▎ PSY_E1_DAIYU_DECAY “Sức khỏe của Daiyu đang suy yếu dần”

▎ Tiền đề: sức khỏe > 0,0 VÀ cách ly > 0,3 VÀ còn sống = Đúng -> Tác dụng: sức khỏe phụ 0,017

▎ Ở mức -0,017 mỗi chương, hơn chục chương, con số này dẫn đến tình trạng kiệt sức mãn tính gây chết người.


① Hiệu ứng trì hoãn quá trình

Kiểm tra hàng đợi_effect đang chờ xử lý. Giả sử điều sau đây đã được kích hoạt trong Chương 13:

▎ FATE_010 “Giấc mộng trước khi chết của Tần Khả Khánh: đỉnh cao báo trước sự sụp đổ” delay_chapters: 20

Hiệu ứng của nó, nền kinh tế.chi tiêu_áp lực cộng thêm 0,1, đã đến hạn và được thực thi trong Chương 33. Hàng đợi hiện trống. Nhảy.


② Đánh giá tất cả 369 định luật

Động cơ quét từng luật theo trình tự. Các luật quan trọng kích hoạt chương này:

Luật A – VAR_MARRIAGE_SWAP “The Switcheroo: Bí mật kết hôn với Baochai” conf=0.95

Kiểm tra hiện trường:

đại lý.林黛玉.sức khỏe \< 0,15 -> 0,12 \< 0,15 ✅

đại lý.林黛玉.alive == Đúng -> Đúng ✅

chính trị.gia đình\_quyết định\_hôn nhân -> Đúng ✅

quan hệ.寶玉::黛玉.hôn nhân\_xác suất \< 0,5 -> 0,15 \< 0,5 ✅

Tất cả đã vượt qua -> 🔥 Đã kích hoạt!

Luật B – PSY_E1_DAIYU_DECAY “Sức khỏe của Daiyu suy giảm” conf=0.9

sức khỏe > 0,0 -> 0,12 > 0 ✅

cách ly > 0,3 -> 0,72 > 0,3 ✅

còn sống == Đúng ✅

-> 🔥 Đã kích hoạt!

Luật C – VAR_MARRIAGE_DAIYU “Mối liên kết giữa đá và gỗ: Baoyu và Daiyu kết hôn” conf=0.9

quan hệ.寶玉::黛玉.marriage\_probability > 0,7 -> 0,15 > 0,7 ❌

-> Không được kích hoạt (Xác suất kết hôn Baoyu-Daiyu quá thấp)

Chương này cũng đồng thời đưa ra hơn chục luật khác (suy thoái kinh tế, rủi ro chính trị, v.v.), nhưng trên đây là những luật liên quan trực tiếp đến Daiyu.


③ Giải quyết xung đột

VAR_MARRIAGE_SWAP, VAR_MARRIAGE_NORMAL_BAOCHAI và VAR_MARRIAGE_DAIYU thuộc cùng một biến thể_group (kết quả hôn nhân loại trừ lẫn nhau).

Chỉ VAR_MARRIAGE_SWAP vượt qua kiểm tra tiền đề nên không có xung đột thực tế. Tuy nhiên, nếu Daiyu đã chết (còn sống=False), thì VAR_MARRIAGE_NORMAL_BAOCHAI sẽ kích hoạt thay vì phiên bản switcheroo –

đó sẽ là một con đường tiến hóa khác.

Hiệu lực của PSY_E1_DAIYU_DECAY là phụ (phụ) nên không xung đột với các luật khác. Tất cả các hiệu ứng được giữ lại.


④ Áp dụng hiệu ứng

Hiệu ứng của Luật A được thực thi ngay lập tức (độ trễ=0):

kích hoạt hôn nhân_event BAOYU_MARRIED_BAOCHAI -> Fate_flags[“BAOYU_MARRIED_BAOCHAI”] = Đúng

quan hệ.寶玉::寶釵.marriage_xác suất được đặt 1.0 -> 1.0

đại lý.賈寶玉.mood sub 0,5 -> 0,20 -> 0,00 (kẹp)

Agent.賈寶玉.monk_tendency thêm 0,3 -> 0,35 -> 0,65

đại lý.林黛玉.health phụ 0,1 -> 0,12 -> 0,02

Tác dụng của định luật B:

đại lý.林黛玉.health phụ 0,017 -> 0,02 -> 0,003

Lúc này máu của Daiyu = 0,003, gần bằng 0.


⑤ Ảnh chụp nhanh

Nén trạng thái thế giới hiện tại thành một vectơ số:

ảnh chụp nhanh = {

nền kinh tế\_vector: \[0,42, 0,82, 0,65, 0,55, 0,80, 0,35],

đại lý\_vector: {

"林黛玉": \[0,003, 0,08, 0,10, 0,00, 0,30, 0,00, 0,72, 0,95],

"賈寶玉": \[0,80, 0,00, 0,30, 0,72, 0,80, 0,65, 0,42, 0,92],

...

},

chính trị\_vector: \[0,0, 0,60, 0,75]

}

Vectơ này sau đó sẽ được so sánh thông qua khoảng cách Euclide với vectơ thực tế của Chương 97 trong thực tế_checkpoints.json.


⑥ chương = 98

Nhập chương tiếp theo. Lúc này máu của Daiyu = 0,003 và BAOYU_MARRIED_BAOCHAI = True.

Khi Chương 98 chạy lại bước ②, hai luật chết người sẽ được kích hoạt đồng thời:

▎ VAR_DAIYU_HEARTBREAK “Đốt bản thảo, cắt đứt quan hệ: Daiyu chết vì đau lòng” conf=0.95

▎ sức khoẻ ≤ 0,05 -> 0,003 ≤ 0,05 ✅

▎ BAOYU_MARRIED_BAOCHAI -> Đúng ✅

▎ -> tử vong kích hoạt_sự kiện FATE_DAIYU_DEATH

▎ -> tu sĩ_xu hướng thêm 0,4 -> Baoyu 0,65 -> 1,0 (kẹp)

▎ -> thiết lập còn sống Sai

Sau đó, SYS_E19_ZERO_DAIYU kích hoạt (checkpoint.FATE_DAIYU_DEATH = True), loại bỏ tất cả các thuộc tính của Daiyu.

Một vài chương sau, xu hướng tu sĩ của Baoyu đã đạt tới 1,0 và tâm trạng ≤ 0,15, kích hoạt VAR_MONK_DESPAIR “Mọi hy vọng đều bị dập tắt: Baoyu từ bỏ thế giới” (萬念俱灰:寶玉出家).