بازی تمدید :: رایانش

به قلم: عرفان لقمانی

هر کدام از ما در هر ترم ۴ یا ۵ درس تخصصی داریم، که هر کدام تعدادی تمرین با درجه‌های سختی مختلف دارند. یکی از پدیده‌هایی که در دانشکده می‌بینیم، تمدید تمرین‌هاست. تمدید ممکن است به خاطر حجم زیاد، دیر شروع کردن به حل، نزدیک بودن چند ددلاین مختلف و دلایل دیگری رخ بدهد. نظریه‌ٔ بازی‌ها شاخه‌ای از ریاضیات است که تلاش می‌کند رفتار موجودات هوشمند را مدلسازی و تحلیل کند. در این نوشته ابتدا نگاهی به نظریه‌ٔ بازی‌ها می‌اندازیم و با بعضی مفاهیم آن آشنا می‌شویم و سپس موضوع تمدید را با استفاده از این نظریه تحلیل می‌کنیم.

بگذارید از یک مثال معروف شروع کنیم.

مسألهٔ زندانی

پلیس ۲ نفر را دستگیر می‌کند که می‌داند یا هر دو با هم مرتکب جرمی شده‌اند یا هیچ‌کدام. از دو نفر در اتاق‌های جدا بازجویی می‌کنند. هر نفر می‌تواند سکوت کند، یا اعتراف کند.

جدول بالا، بازی بین دو بازیکن سطر و ستون را نشان می‌دهد و در هر خانه میزان جریمهٔ هر کدام از بازیکنان آمده‌است.

اگر هر دو سکوت کنند، هرکدام‌شان را ۲ روز در بازداشتگاه نگه می‌دارند و بازجویی می‌کنند. اگر یک نفر اعتراف کند، کسی که اعتراف کرده را بعد از ۱ روز آزاد می‌کنند و شخصی که سکوت کرده را ۱۰ روز زندانی می‌کنند. و اگر هر دو اعتراف کنند، هر دو را ۵ روز زندانی می‌کنند. حال خود را جای یکی از بازیکنان قرار دهید، چه می‌کنید؟

اگر نفر دیگر ساکت بماند، به نفع شماست که اعتراف کنید، و اگر اعتراف کند، باز هم به نفع شماست که اعتراف کنید. پس اگر خودخواهانه تصمیم بگیرند، هر دو اعتراف می‌کنند، ولی خانهٔ «سکوت-سکوت» که برای جفتشان بهتر بود را از دست می‌دهند.

بازی‌هایی از این دست در اطرافمان زیاد است: اگر من آشغالم را روی زمین رها کنم، برایم کم‌ترین دردسر را دارد. ولی اگر همه همین کار را بکنند چه؟

وضعیت «اعتراف-اعتراف» در بازی زندانی که در آن هیچ‌کس به نفعش نیست بازی‌اش را عوض کند را نقطهٔ تعادل نش در آن بازی می‌گویند. جان نش ریاضیدان معاصری است که نشان داد تمام بازی‌های با تعداد متناهی وضعیت، حداقل یک نقطهٔ تعادل خالص یا ترکیبی دارند، و به‌خاطر این اثبات مدتی بعد نوبل اقتصاد گرفت.

اما نقطه‌ٔ تعادل ترکیبی چیست؟ نقطهٔ تعادل ترکیبی، نقطه‌ای از بازی است که بازیکنان در آن استراتژی خود را به‌صورت قطعی انتخاب نمی‌کنند و با احتمالی بین انتخاب‌های ممکن تصمیم می‌گیرند.

یک مثال می‌زنیم:

بازی پنالتی

پنالتی‌زن می‌تواند به راست یا به چپ بزند، و دروازه‌بان می‌تواند به راست یا چپ بپرد.

در این بازی هیچ‌کدام از چهار وضعیت نقطهٔ تعادل نیستند (چرا؟). پس نقطه‌ٔ تعادل این بازی کجاست؟

اگر دروازه‌بان با احتمال ۰٫۵ به راست بپرد و با احتمال ۰٫۵ به چپ، در این صورت برای پنالتی‌زن تفاوتی ندارد که چه‌گونه بازی کند. در واقع اگر هر دو بازیکن با احتمال ۰٫۵ تصمیم بگیرند، تغییر دادن بازی به هیچ‌کدام سودی نمی‌رساند. پس این نقطه یک نقطهٔ تعادل ترکیبی است.

کمی بیشتر توضیح بدهیم: فرض کنید شما دروازه‌بان باشید و بدانید پنالتی‌زن همیشه به راست می‌زند. پس شما هم به راست می‌پرید و پنالتی گل نمی‌شود. پس یک پنالتی‌زن حرفه‌ای باید نیمی از مواقع به راست و نیمی از مواقع به چپ بزند تا رفتارش قابل پیش‌بینی نباشد.

در دانشکده و اطرافمان هم بازی‌های زیادی در جریان است که گاهی دانشجوها بازیکنان آن هستند، گاهی اساتید و گاهی هم همه‌ٔ دانشکده.

در ادامه تلاش می‌کنیم مسالهٔ تمدید تمرین‌ها را به عنوان یک بازی بررسی کنیم. گفتنی است این تنها مدلی ساده است و ایراداتی دارد که قابل بهبود است.

بازی تمدید

بازی بین دو دانشجو بازی می‌شود، هر کس می‌تواند تمرین را زود شروع کند یا بگذارد برای روزهای آخر.

اگر هر دو زود شروع کنند، به هر دو کمی فشار می‌آید ولی هر دو ۲ واحد سود می‌کنند. اگر یکی زود شروع کند و یکی دیر، چون نیمی از افراد کلاس زود تمرین را زده‌اند تمرین تمدید نمی‌شود و کسی که دیر شروع کرده، کمی نمره از دست می‌دهد و یک واحد سود می‌کند. اما اگر هر دو دیر شروع کنند تمرین تمدید می‌شود و همه شاد شده و ۳ واحد سود می‌کنند. نقطه‌ٔ تعادل این بازی کجاست؟

هر دو وضعیت زود-زود و دیر-دیر نقطهٔ تعادل‌اند، اما آیا نقطه‌ٔ تعادل ترکیبی هم داریم؟

بله، اگر هر نفر با احتمال ۰٫۵ تصمیم بگیرد هم یک نقطه‌ٔ تعادل خواهیم داشت. اگر تمام دانشجوها با همین روش بازی کنند، نیمی از دانشجویان زود شروع می‌کنند و نیمی دیر، پس تمرین تمدید نمی‌شود. اما در دانشکده می‌بینیم تمرین‌ها تمدید می‌شوند. چرا؟

یک دلیل این است که این بازی به صورت مداوم در دانشکده تکرار می‌شود. اگر شما دانشجویی باشید که تمرین را زود شروع می‌کنید و تمرین چند بار تمدید شود، دیگر ددلاین‌ها برایتان اعتبار نخواهد داشت و کم‌کم تمرین‌ها را دیر شروع می‌کنید. پس یک راه برای جلوگیری از پدیده‌ٔ تمدید این است که ددلاین‌ها معتبر باشد و استاد به راحتی تمرین را تمدید نکند.

راه حل‌های دیگری هم هست. استاد می‌تواند با سیاست‌هایی اعداد جدول را تغییر دهد؛ مثلا نمرهٔ بیشتری برای افرادی که زود شروع می‌کنند در نظر بگیرد یا سختی تمرین را طوری تنظیم کند که نیاز به تمدید نباشد یا... به این تغییرات در محیط بازی و به‌طور کلی تغییراتی که طراحان بازی می‌دهند تا رفتار مورد انتظارشان در جامعه دیده شود، طراحی مکانیزم می‌گویند.

اما سؤالی که همیشه ذهن را مشغول می‌کند این است که: چقدر رفتارهای ما باید تحت تأثیر طراحی بازی‌های اطرافمان باشد و از آن طرف چقدر باید برای رسیدن به یک رفتار مورد انتظار در جامعه، طراحی بازی را تغییر داد؟

رایانش

نشریه‌ی دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف

بازی تمدید

نظرات (۱)

شماره‌ها

شماره ۱

شماره ۲

شماره ۳

شماره ۴

شماره ۱۰