Lý thuyết trò chơi là gì?
Bạn đang đi chơi với bạn bè và phải đưa ra quyết định? Có lẽ bạn không nghĩ nhiều đến toán học đằng sau những quyết định đó, nhưng thực tế có một lĩnh vực toán học và khoa học áp dụng cho các tương tác xã hội. Đó là lý thuyết trò chơi!
Lý thuyết trò chơi không chỉ là về các trò chơi giải trí. Thay vào đó, một trò chơi trong lý thuyết trò chơi là bất kỳ tương tác nào giữa nhiều người mà trong đó 'phần thưởng' của mỗi người bị ảnh hưởng bởi các quyết định mà những người khác đưa ra. Vì vậy, lý thuyết này có thể áp dụng cho một ván poker, nhưng nó cũng áp dụng cho hầu hết mọi tình huống khi mọi người 'xía' vào chuyện của nhau.
Vậy, bạn có tương tác với ai hôm nay không? Bạn có thể phân tích các quyết định bạn đưa ra bằng lý thuyết trò chơi đấy! Lý thuyết trò chơi có phạm vi ứng dụng vô cùng rộng rãi. Các nhà kinh tế, khoa học chính trị, nhà sinh vật học, nhà chiến thuật quân sự và các nhà tâm lý học đều sử dụng nó.
Lý thuyết trò chơi được tiên phong vào những năm 1950 bởi nhà toán học John Nash, người mà Russell Crowe thủ vai trong bộ phim A Beautiful Mind.
Lý thuyết trò chơi có Hai nhánh chính:
- Cooperative Game Theory (Lý thuyết trò chơi hợp tác)
- Non-Cooperative Game Theory (Lý thuyết trò chơi không hợp tác) hay còn gọi là Competitive Game Theory (Lý thuyết trò chơi cạnh tranh).
Non-Cooperative Game Theory bao gồm các tương tác xã hội cạnh tranh, nơi sẽ có người thắng và kẻ thua.
Bài toán nan giải của tù nhân (Prisoner's Dilemma)
Thí nghiệm tư duy nổi tiếng nhất trong Competitive Game Theory có lẽ là Prisoner's Dilemma (Bài toán nan giải của tù nhân).
Nó mô tả một 'trò chơi', hay một tương tác xã hội liên quan đến hai tù nhân. Chúng ta sẽ gọi họ là Wanda và Fred.
Wanda và Fred bị bắt khi đang chạy trốn khỏi hiện trường vụ án. Dựa trên các bằng chứng mà cảnh sát thu thập được, cả hai sẽ phải ngồi tù hai năm. Nhưng công tố viên muốn nhiều hơn thế.
Vì vậy, công tố viên đề nghị cả hai một thỏa thuận:
- Nếu bạn thú nhận tội ác và đồng bọn của bạn thì không, bạn sẽ được hưởng quyền miễn trừ, tức là được tự do.
- Đồng bọn của bạn sẽ phải ngồi tù 10 năm.
- Nếu cả hai cùng thú nhận và khai báo về nhau, thì cả hai sẽ phải ngồi tù 5 năm.
- Nhưng nếu không ai thú nhận, cả hai sẽ chỉ phải ngồi tù 2 năm.
Sau đó, Wanda và Fred bị tách ra. Họ không biết đối phương sẽ làm gì. Họ phải đưa ra quyết định độc lập. Wanda và Fred đã có khoảng thời gian ăn chơi trác táng khi đi ăn trộm kim cương. Họ không có bất kỳ sự trung thành đặc biệt nào với nhau. Họ không phải là anh em. Họ là những tên tội phạm cứng cỏi. Fred không có lý do gì để nghĩ rằng Wanda sẽ không đâm sau lưng anh ta, và ngược lại.
Competitive Game Theory sắp xếp các lựa chọn và hậu quả tiềm ẩn của Wanda và Fred thành một lưới như sau:
|
Fred không thú nhận |
Fred thú nhận |
Wanda không thú nhận |
Cả hai 2 năm |
Fred 10 năm |
Wanda thú nhận |
Wanda 0 năm |
Cả hai 5 năm |
- Nếu cả Wanda và Fred đều chọn không thú nhận, cả hai sẽ phải ngồi tù hai năm. Về mặt lý thuyết, đây là kết quả tốt nhất cho cả hai. Tổng cộng, họ sẽ phải ở trong tù ít thời gian nhất có thể.
- Nhưng quyền miễn trừ nghe có vẻ hấp dẫn. Nếu một trong hai người chọn thú nhận và người kia thì không, kẻ mách lẻo sẽ được tự do.
Đây là vấn đề: Wanda và Fred không có lý do gì để tin tưởng nhau. Wanda có thể xem xét việc không thú nhận, vì nếu Fred cũng không thú nhận, cả hai sẽ chỉ phải ngồi tù hai năm. Nếu họ thực sự có thể tin tưởng lẫn nhau, đó sẽ là lựa chọn tốt nhất của họ.
Nhưng Wanda không thể chắc chắn rằng Fred sẽ không khai. Anh ta có rất nhiều thứ để đạt được bằng cách thú nhận. Nếu anh ta quyết định thú nhận và Wanda giữ im lặng, cô ấy sẽ có nguy cơ phải ngồi tù 10 năm, trong khi anh ta được tự do. So với điều đó, 5 năm mà cả hai phải chịu đựng vì phản bội nhau không tệ đến vậy.
Vậy, đâu là giải pháp của Lý thuyết trò chơi? Cả hai nên thú nhận và tố cáo lẫn nhau.
Nash Equilibrium
Ngay bây giờ, bạn có thể nghĩ, 'Wow, lý thuyết trò chơi thật tồi tệ!' Nhưng nó thực sự hợp lý. Ô vuông trong lưới mà cả hai đều thú nhận là kết quả duy nhất đạt đến điều mà Nash gọi là Nash Equilibrium.
Đây là một khái niệm quan trọng trong Competitive Game Theory. Một người chơi trong một trò chơi đã tìm thấy Nash Equilibrium khi họ đưa ra lựa chọn giúp họ tốt hơn bất kể đối thủ của họ quyết định làm gì.
Ví dụ, nếu Wanda thú nhận và Fred không thú nhận, cô ấy sẽ tốt hơn. Cô ấy sẽ được tự do. Bằng cách thú nhận, cô ấy đã chuyển từ việc phải ngồi tù hai năm sang không phải ngồi tù.
Nếu Fred thú nhận, cô ấy vẫn tốt hơn. Nếu cô ấy giữ im lặng, cô ấy sẽ phải ngồi tù 10 năm. Nhưng nếu thay vào đó cô ấy thú nhận, cô ấy chỉ phải ngồi tù năm năm.
Vì vậy, bất kể Fred làm gì, Wanda luôn tốt hơn khi thú nhận. Và điều tương tự cũng đúng với Fred.
Lý thuyết trò chơi hợp tác: Giá trị Shapley (Shapley Value)
Bây giờ, hãy chuyển sang Cooperative Game Theory. Câu hỏi chính của Cooperative Game Theory là mỗi người chơi nên đóng góp bao nhiêu vào liên minh và họ nên được hưởng lợi bao nhiêu từ nó. Nói cách khác, nó cố gắng xác định điều gì là công bằng.
Trong khi Competitive Game Theory có Nash Equilibrium, thì Cooperative Game Theory có một thứ gọi là Shapley Value. Shapley Value là một phương pháp chia sẻ lợi ích hoặc chi phí giữa những người chơi trong một tình huống hợp tác. Nó hoạt động bằng cách áp dụng một số tiên đề:
- Đóng góp của mỗi người chơi được xác định bởi những gì đạt được hoặc mất đi bằng cách loại bỏ họ khỏi trò chơi. Điều này được gọi là đóng góp cận biên của họ.
- Những người chơi có thể thay thế cho nhau có giá trị ngang nhau. Nếu hai bên mang lại những điều giống nhau cho liên minh, họ nên đóng góp số tiền tương tự và được khen thưởng vì những đóng góp của họ như nhau.
- Những người chơi bù nhìn không có giá trị. Nếu một thành viên của liên minh không đóng góp gì, thì họ không nên nhận được gì.
- Nếu một trò chơi có nhiều phần, chi phí hoặc thanh toán nên được phân chia trên các phần đó.
Chúng ta hãy xem xét một ví dụ về các bạn làm bánh quy. Bạn và bạn bè của bạn đang nướng bánh quy. Bạn có thể làm 10 chiếc bánh quy mỗi giờ khi làm việc một mình. Bạn của bạn là một 'phù thủy bánh quy', và trong cùng một giờ làm việc một mình, anh ta có thể làm 20 chiếc bánh quy.
Khi bạn quyết định hợp tác, bạn hợp lý hóa quá trình của mình. Một người có thể trộn tất cả bột cùng một lúc, điều này giúp bạn tiết kiệm rất nhiều thời gian. Vì vậy, sau một giờ, bạn có 40 chiếc bánh quy. Nếu mỗi người làm việc một mình, các bạn chỉ có thể làm 30 chiếc bánh quy trong cùng một giờ. Sau đó, bạn bán mỗi chiếc bánh quy với giá một đô la. Bây giờ bạn có 40 đô la. Bạn chia số tiền đó như thế nào?
Phương trình Shapley Value yêu cầu bạn nghĩ về nó như thế này:
- Nếu bạn lấy thực tế là bạn có thể làm 10 chiếc bánh quy một giờ và trừ chúng khỏi tổng số, điều đó cho bạn của bạn được ghi nhận cho 30 chiếc bánh quy còn lại.
- Đó là những gì sẽ xảy ra khi bạn loại bạn của bạn khỏi hệ thống. Đóng góp cận biên của bạn của bạn của bạn cho bạn là 30 chiếc bánh quy.
- Nhưng nếu bạn lấy thực tế rằng bạn của bạn có thể làm 20 chiếc bánh quy một giờ và trừ nó khỏi tổng số, điều đó cho bạn được ghi nhận cho 20 chiếc bánh quy. Trong trường hợp đầu tiên, giá trị của bạn cho liên minh chỉ là 10 chiếc bánh quy. Nhưng trong trường hợp thứ hai, giá trị của bạn cho liên minh là 20 chiếc bánh quy.
- Theo phương trình Shapley Value, bạn nên tính trung bình hai số đó lại với nhau. 10 cộng 20 là 30, chia cho hai là 15.
Theo phương trình Shapley Value, bạn nên nhận 15 đô la và bạn của bạn nên nhận 25 đô la. Phương pháp này có thể được mở rộng cho các liên minh với hàng trăm người chơi.