Повторяющаяся дилемма заключённого
В книге «Эволюция кооперации» (1984) Роберт Аксельрод исследовал поведение игроков в повторяющейся дилемме заключенного. Он предложил своим коллегам реализовать алгоритмы, реализующие данную игру и провёл турнир среди данных алгоритмов. В турнире приняло участие много программ, реализующих алгоритмы. Интересно, что по поведению программ можно было наделять их человеческими качествами. Например, оказалось, что «жадные» программы начинали терпеть поражение после нескольких игр, то есть, в долгосрочной перспективе они оказывались несостоятельными. «Альтруистические» программы, стремящиеся к кооперации приводили, опять таки, в долгосрочной перспективе, к положительным результатам в плане выигрыша. Аксельрод показал, что возможен естественный отбор, приводящий к альтруистическому поведению при начальном эгоистичном поведении.
Среди представленных программ были как очень сложные, так и очень простые, как детерминистические (не зависящие от случайных чисел), так и не детерминистические (смешанные). Интересно, что наилучшей из детерминистических стратегий оказалась стратегия «око за око», которая состояла всего из четырёх строк на бейсике. Она всегда сотрудничала на первом шаге, а на следующих шагах она повторяла поведение соперника, то есть, «предавала», если предавал соперник, и «сотрудничала», если сотрудничал соперник. Если добавить к этой стратегии элемент случайности, например, чтобы в случае предательства программа иногда, с вероятностью 1-5%, прощала, то результат мог бы оказаться ещё лучше. Это помогало разрушить цикл взаимного предательства (интересно звучит).
Анализируя результаты турнира, Аксельрод выделил несколько условий, способствующих высоким результатам в игре.
Стратегия не должна предавать до тех пор, пока ее не предаст противник. Почти каждая стратегия в верхней части турнирной таблицы обладала данным свойством, назовем его добротой. Интересно, что для получения наибольшей выгоды для себя, то есть из чисто корыстных побуждений, стратегия не должна предавать противника первой.
Стратегия должна реагировать на попытку противника предать ее. Стратегия всепрощения обречена на провал, потому что всегда найдется «подлая» стратегия, которая непременно воспользуется такой наивностью. Другими словами, успешная стратегия должна быть мстительной.
Если противник перестанет предавать, хорошей стратегией будет возобновление сотрудничества. Стратегия должна быть мягкой. Стратегия должна уметь прощать.
Зависть – желание набрать очков больше, чем соперник. Это – плохое свойство, хорошие стратегии независтливы.
Вывод из этого эксперимента звучит странно: для того, чтобы стратегии-эгоисты получали как можно больше выгоды для себя, они должны быть добрыми, независтливыми и прощающими. Неожиданно, не так ли?
Игра в монетки
Давайте проанализируем следующую игру.
Имеется два игрока. Один из них прячет монету в руке. Другой пытается угадать, где монета. Игрок, угадавший, в какой руке монета у партнёра, забирает её. Если угадать не получилось, мы отдаём партнёру по игре свою монетку.
Построим матрицу платежей для данной игры.
Как мы видим, в данной игре ВООБЩЕ нет никаких равновесий – ни по Нэшу, ни Парето-оптимальных.
Как вы думаете, какое будет равновесие в смешанных стратегиях в данной игре?
Вы можете попробовать поиграть в данную игру со своими друзьями, чтобы попробовать найти вашу лучшую стратегию.