اخبار 2020-09-28 خانه پوکر ایرانیان

فیسبوک از ربات پوکر باز خود با قابلیت های فرا بشری خبر داد.

مقدمه

تیم هوش مصنوعی فیس بوک ، از  آنچه  که یک قهرمان پوکر “فوق بشری” توصیف کرده است ، رونمایی کرد. یک ربات با توانایی شکست  نوابغ پوکر دنیا. Pluribus، اولین رباتی که موفق به شکست انسان در قالب 6 نفری No Limit Holdem ، که شامل اطلاعات “پنهان”  و کارت هایی که هنوز فاش نشده اند است.

Noam Brown ، سخنگوی تیم محققان هوش مصنوعی فیس بوک ، در گفتگو با بی بی سی گفت: “مردم فکر می کنند بلاف زدن یک ویژگی کاملا انسانی است. اما در واقع بلاف زدن توجیه ریاضی دارد. وقتی ربات «بلوف می زند» ، آن را فریب کارانه یا غلط نمی بیند، این فقط راهی برای کسب درآمد بیشتر است.

آقای براون گفت نه او و نه فیس بوک برنامه ای برای استفاده از هوش مصنوعی در بازی های واقعی پوکر ندارند. در واقع ، این شرکت گفته است که بخاطر ترس از تاثیر منفی بر جامعه پوکر ، بسیاری از کدها را فاش نمی کند. سخنگوی این سخنان می گوید نمونه هایی از تکنیک ها را برای سایر محققانی که در زمینه هوش مصنوعی کار می کنند ارائه می دهد.

آقای براون درباره اینکه چه کاربرد عملی ممکن است فیس بوک برای این فناوری در نظر داشته باشد ، توضیح دقیق نمی دهد

وی گفت: “تحقیقات ما بر پیشرفت اصول متمرکز شده است.”

این تحقیقات میتواند از امنیت سایبری گرفته تا کشف تقلب و پیشرفت در تحقیقات خودرو های هوشمند موثر باشد.

صرفه جویی در هزینه های هوش مصنوعی:

فیس بوک مدلی را ایجاد کرد که هوش مصنوعی پس از یادگیری قوانین بازی میلیارد ها بار با خودش بازی می کند ، روشی که به آن “یادگیری تقویتی” می گویند. به عبارت دیگر ، تمرین راه رسیدن به کمال است.

آقای براون در مورد این دستاورد بی نظیر گفت : ” میزان نسبتاً کم توان محاسباتی برای آموزش Pluribus مورد نیاز است.”

هوش مصنوعی برای کار به منابع محاسبات ابری فقط 150 دلار نیاز داشت. در حالی که تلاشهای مشابه ، از فروشگاه تحقیقاتی هوش مصنوعی Google Deepmind ، به ابر رایانه هایی  متشکل از بیش از 5000 پردازنده تخصصی و هوشمند  با هزینه میلیون ها دلار گزارش شده است. کاهش توان محاسباتی لازم برای آزمایش های هوش مصنوعی که به عنوان یک مانع اساسی در پیشرفت فناوری شناخته می شد ، با به نتیجه رسیدن تحقیقات در پروژه Pluribus، دستاورد بزرگ دیگر این مجموعه است.

آقای براون گفت تنها 20 ساعت یادگیری هوش مصنوعی لازم بود تا بتواند بازیکنان حرفه پوکر را شکست دهد. به طور متوسط ​​، ربات هنگام بازی برابر پنج انسان 1000 دلار در ساعت درآمد داشت. در بخشی از اعلامیه فیس بوک خود در مورد فناوری جدید ، فیس بوک از چندین قهرمان پوکر انسانی که برای بازی مقابل AI استفاده شده بودند ، نقل کرد.

Chris “Jesus” Ferguson ، قهرمان WSOP 2000 گفت: “Pluribus یک حریف بسیار سخت برای بازی کردن است.”

این کار به احتمال زیاد باعث محبوبیت این تیم در بین محققان هوش مصنوعی می شود که بیش از یک دهه در تلاش بودند تا هوش مصنوعی بازی پوکر را ایجاد کنند.

در پایان آقای براون اطمینان داد این دستاورد تهدیدی برای صنعت پوکر آنلاین محسوب نمی شود.

 

Facebook با همکاری دانشگاه Carnegie Mellon سازنده ی اولین ربات هوش مصنوعی که بازیکنان حرفه ای پوکر را در بازی 6 نفره برد.

Pluribus اولین ربات هوش مصنوعی که قادر است بازیکنان حرفه ای را در قالب شش نفره Hold’em ، محبوب ترین نوع بازی پوکر مغلوب می کند. این اولین بار است که یک ربات AI در یک بازی پیچیده با بیش از دو بازیکن یا دو تیم ، بازیکنان برتر و حرفه ای را شکست می دهد. 

 Pluribus در برابر بازیکنان حرفه ای پوکر ، از جمله دو برنده مسابقات جهانی WSOP Main event آزمایش شد و قاطعانه برنده شد.

دلیل موفقیت این ربات استفاده از اطلاعات دریافت شده از رویارویی با هر بازیکن و واکنش مناسب نسبت به عملکرد هر شخص، بدون مثال و با استفاده از سیستم خود یادگیری است.

Pluribus نسبت به ربات های دیگر، بسیار کمتر از عملیات محاسباتی و ریاضی استفاده می کند. 

موفقیت این ربات باعث پیشرفت چشمگیری در زمینه ی هوش مصنوعی می شود. چون چالش های اصلی هوش مصنوعی استفاده از اطلاعات پنهان و پیش بینی رفتار انسان است.

برای مدت زیاد، بازی پوکر چالش مهم و بزرگ برای محققان هوش مصنوعی بوده است. چون پوکر بازی اطلاعات پنهان است. در پوکر کارت حریف را نمی دانیم و بلاف زدن لازمه ی موفقیت و برد در بازی است که برای مثال در بازی شطرنج نیست. همین تفاوت، پوکر را در برابر تکنیک های هوش مصنوعی تا حد زیادی مقاوم ساخته. در حالی که بازی مانند شطرنج کاملا برای هوش مصنوعی حل شده است.

در سال های اخیر فناوری های هوش مصنوعی قادر به ساخت رباتی که بتواند انسان را در بازی 2 نفره شکست دهد، بوده .اما توسعه سیستم هوش مصنوعی قادر به شکست دادن بازیکنان پوکر در مقیاس کامل 6 نفره نقطه عطف اصلی باقی مانده در میان فعالان این زمینه بوده است.

Pluberis،  بازیکنان حرفه ای را در دو قالب “۵ ربات+۱ انسان” و ” ۵ انسان +۱ ربات” شکست داد. اگر ارزش هر چیپ را 1 دلار در نظر بگیریم. به طور میانگین در هر دست موفق شد 5 دلار ( 1000 دلار/ ساعت) برنده شود. این آمار میان بازیکنان حرفه ای نیز یک آمار خارق العاده محسوب می شود.

این اولین باری است که یک ربات هوش مصنوعی موفق به شکست دادن انسان در بازی های استراتژیک با بیشتر از 2 بازیکن می شود. در این مقاله ما به جزئیات بیشتر Pluberis  می پردازیم.

Pluberis با کمک فناوری و اطلاعات موجود از Libratus ، رباتی که در سال 2017 موفق به شکست انسان در بازی دو نفره No Limit Hold’em شده بود و همچنین الگوریتم و کد های توسعه یافته دیگر که در سایت Tuamos Sandholm دانشگاه Carnegie Mellon ساخته شده است. به طور خاص ، Pluribus یک الگوریتم جستجوی آنلاین جدید را در خود جای داده است که می تواند انتخاب های خود را با یافتن چند حرکت زود تر و نه تنها تا پایان بازی ، ارزیابی کند. Pluribus همچنین برای بازی هایی با اطلاعات پنهان از الگوریتم های جدید و سریعتر استفاده می کند. درمجموع ، این پیشرفت ها باعث می شود Pluribus را با استفاده از قدرت پردازش و حافظه بسیار کم – معادل کمتر از 150 دلار از منابع محاسبات ابری – آموزش داده شود. در حالی که برای سایر پروژه های هوش مصنوعی ، حدود 1 میلیون دلار ارزش منابع محاسباتی برای آموزش لازم است.

این نوآوری ها دارای پیامدهای مهمی فراتر از پوکر است ، زیرا در بازی 2 نفره (که در آن یک بازیکن برنده می شود و یک بازیکن می بازد) در بازی های تفریحی رایج است ، اما در واقعیت ، در سایت ها بازی 2 نفره کمتر فعال هستند. سناریوهای دنیای واقعی – اقدام به محتوای مضر و مقابله با چالش های امنیت سایبری ، و همچنین مدیریت حراج آنلاین یا پیمایش ترافیک – به طور معمول شامل چندین بازیکن یا اطلاعات پنهان است. تعامل چند نفره چالش های نظری و عملی جدی را برای تکنیک های گذشته هوش مصنوعی ایجاد می کند. نتایج ما نشان می دهد که یک الگوریتم هوش مصنوعی با دقت ساخته شده می تواند در خارج از بازی های 2 نفره ، به عملکرد فوق بشری برسد.

درک طرح استراتژی Pluribus

هسته اصلی استراتژی Pluribus از طریق بازی خود محاسبه می شود ، که در آن ربات، با نسخه هایی از خودش بازی می کند ، بدون اینکه از داده های گیم پلی انسانی استفاده شود. هوش مصنوعی از ابتدا با بازی تصادفی شروع می شود و به تدریج بهبود می یابد زیرا تعیین می کند کدام یک از اقدامات ، و توزیع احتمال در این اقدامات ، منجر به نتایج بهتری در برابر نسخه های قبلی استراتژی خود می شود. نسخه آزمون خطا استفاده شده در Pluribus یک نوع بهبود یافته از الگوریتم تکراری مونت کارلو CFR (MCCFR) است.

MCCFR در هر تکرار از الگوریتم ، یک بازیکن را به عنوان “گذر” معرفی می کند که استراتژی فعلی آن در مورد تکرار به روز می شود. در شروع تکرار ، MCCFR یک دست پوکر را براساس استراتژی فعلی همه بازیکنان (که در ابتدا کاملاً تصادفی است) شبیه سازی می کند. پس از اتمام دست شبیه سازی شده ، الگوریتم هر تصمیمی را که گذر گرفته است بررسی می کند و بررسی می کند که با انتخاب سایر اقدامات موجود ، به جای آن ، چه کاری بهتر یا بدتر می توانست انجام دهد. در مرحله بعد ، هوش مصنوعی شایستگی های هر تصمیم فرضی را که می توانست به دنبال اقدامات دیگر موجود در نظر گرفته شود ، ارزیابی می کند

فهم سایر نتایج فرضی امکان پذیر است زیرا هوش مصنوعی در برابر نسخه هایی از خود بازی می کند. اگر هوش مصنوعی می خواهد بداند که درصورت اقدامات دیگر، چه اتفاقی می افتد ، فقط باید از خود بپرسید که چگونه به متغیرهای دیگر پاسخ می داد.

ارزیابی دقیق تر عملکرد Pluribus در برابر بازیکنان حرفه ای را در برابر گروهی از نوابغ صنعت پوکر امتحان کردیم. گروه بازیکنان شامل

  • Chris “Jesus” Ferguson (the 2000 World Series of Poker Main Event champion)
  •  Greg Merson (the 2012 World Series of Poker Main Event champion)
  •  Darren Elias (four-time World Poker Tour champion)
  • Jimmy Chou
  • Seth Davies
  • Michael Gagliano
  • Anthony Gregg
  • Dong Kim
  • Jason Les
  • Linus Loeliger
  • Daniel McAulay
  • Nick Petrangelo
  • Sean Ruane
  • Trevor Savage
  • Trevor Savage
  • Jake Toole

هر کدام از این بازیکنان در دوران حرفه ای خود حداقل 1 میلیون دلار و بسیاری تا 10 میلیون دلار برنده شدند.

در گذشته زمانی که هوش مصنوعی در برابر انسان به آزمایش گذاشته شد. در ابتدا هوش مصنوعی موفق به برد شده اما در نهایت بازیکنان موفق به پیدا کردن نقاط ضعف ربات شدند و آن را مغلوب کردند. دوره ی آزمایش ربات در برابر انسان شامل هزاران دست بازی شده در چند روز بوده تا به انسان زمان کافی برای پیدا کردن نقاط ضعف ربات داده شود. 

این آزمایش  در دو قالب ۶ نفری انجام شد: ۵ انسان + ربات و ۵ ربات (کپی Pluribus) + انسان که در هر دو قالب ۱۰۰۰۰ چیپ روی میز وجود داشت (Small blind ۵۰), (Big blind ۱۰۰).

نحوه بازی Pluribus با پاکت آس (AA)

در انتها پیشنهاد می‌کنیم، بعد از دیدن ویدیو اگر علاقمند به بازی پوکر بودید، میتوانید اتاق های پوکر را بررسی کنید.