久久91精品国产91,姐姐在线观看动漫第二集免费,日本宅男午夜免费永久网站

新聞資訊
NEWS

新聞資訊

NEWS CENTER

資訊分類

聯系我們

CONTACT US

聯系我們

發布時間:2021-01-18 15:53:12
您現在的位置:

人類玩德州撲克也撲街了?Facebook開發玩德州撲克的AI

  • 分類:公司新聞
  • 作者:
  • 來源:
  • 發布時間:2021-01-07 08:32:28
  • 訪問量:

【概要描述】 近年來人工智能發展迅猛,很多重復性的工作都被AI自動化了,人類工作要被機器替代的說法也「甚囂塵上」,而現在,打打撲克也不行了?最近,Facebook 的研究人員開發了一個名為「Recursive Belief-based Learning」(ReBeL)的通用人工智能框架,德州撲克玩的相當溜。根據Facebook的說法,這個框架在單挑無限制的德州撲克游戲

2023年新春答謝晚宴

【概要描述】

  • 分類:公司新聞
  • 作者:
  • 來源:
  • 發布時間:2023-02-07 13:29
  • 訪問量:
詳情

 

近年來人工智能發展迅猛,很多重復性的工作都被AI自動化了,人類工作要被機器替代的說法也「甚囂塵上」,而現在,打打撲克也不行了?

最近,Facebook 的研究人員開發了一個名為「Recursive Belief-based Learning」(ReBeL)的通用人工智能框架,德州撲克玩的相當溜。

004.jpg


根據Facebook的說法,這個框架在單挑無限制的德州撲克游戲中明顯優于人類表現,而且使用的領域知識比之前任何撲克人工智能都要少。

他們斷言 ReBeL 是開發通用多代理交互技術的一種方法,該算法可以部署在大規模、多代理環境中,預期的應用范圍也很廣,從拍賣、談判、網絡安全到自動駕駛都能用上。

AlphaZero在不完全信息游戲中表現「差點意思」

目前,將強化學習與搜索相結合,在人工智能模型訓練和測試方面,已經取得了一些進展。

強化學習代理是通過最大化回報來學習的,而搜索是從開始到目標狀態的導航過程。例如,DeepMind 的 AlphaZero 使用強化學習和搜索技術在國際象棋、圍棋等游戲中實現了SOTA效果。


003.jpg




但是之前的組合方法在應用于不完全信息的游戲如撲克(甚至是石頭、剪子、布)時就不那么奏效了,因為它做出了一些在這種情況下不成立的假設。

任何給定動作的價值取決于它被選擇的概率,更一般地說,取決于整個游戲策略,而圍棋游戲的搜索空間是有限的,并且每一個動作的價值可以在被選之前評估出來。

基于信念的遞歸學習擊敗頂尖人類玩家

ReBeL將「游戲狀態」的概念進行了擴展,它包括了代理基于常識和其他代理的政策對他們可能處于何種狀態的置信度。

ReBeL通過自我強化學習訓練了兩個網絡:一個價值網絡和一個政策網絡。它在自我對弈中使用兩種模型進行搜索。結果是一種簡單,靈活的算法,研究人員聲稱該算法能夠在大規模的兩人不完全信息游戲中擊敗頂尖的人類玩家。

從更高層次上來講,ReBeL 運行于公共置信狀態而不是世界狀態(即游戲狀態)。公共置信狀態(PBSs)將「狀態價值」的概念推廣到像撲克這樣的不完全信息游戲中,PBS是在可能的動作和狀態的有限序列(也稱為歷史記錄)上的常見知識概率分布,可提供發生不同結果的可能性。

在完全信息游戲中,PBS可以提取到歷史記錄,而在兩人零和游戲中,PBS可以有效地提取到世界狀態。撲克中的PBS是玩家可以做出的一系列決定,以及特定手牌,底池和籌碼時他們的結果。


002.jpg


ReBeL在每個游戲開始時都會生成一個與原始游戲相同的「子游戲」,只是它起源于最初的PBS。該算法通過運行「均衡查找」算法的迭代并使用訓練后的價值網絡在每次迭代中取近似值來擊敗對手。


001.jpg


與世界上最好的單挑撲克玩家之一的Dong Kim相比,ReBeL在7500手牌中每手玩的時間超過了2秒,決策所需的時間從不超過5秒。Facebook以前的撲克游戲系統Libratus的最高得分為147,而ReBeL對人類的平均每場比賽盲注(強迫下注)得分為165(標準差為69)。

005.jpg


擔心被拿去賭錢,Facebook決定不公開源碼

在實驗中,研究人員對ReBeL進行了單挑無限制,Liar’s Dice和殘局游戲的基準測試,這是無限制德州撲克的一種變體,兩個玩家可以在四輪投注中的前兩輪進行檢查或叫牌。

研究小組使用了多達128臺帶有8個顯卡的電腦來生成模擬游戲數據,并在訓練期間隨機分配賭注和堆棧大小(從5,000到25,000個芯片)。ReBeL 在整場比賽中接受訓練,并且有20,000美元可以下注。

出于對作弊的擔心,Facebook 團隊決定不發布用于撲克的 ReBeL 代碼庫。相反,他們將 Liar’s Dice 的實現開放了。Facebook的研究人員相信ReBeL將使得德州撲克在強化學習研究領域更受歡迎。

「雖然人工智能算法已經存在,可以在撲克游戲中取得超人的表現,但這些算法通常假設參與者擁有一定數量的籌碼或使用一定的賭注大小」。

而在實戰中,你的籌碼數量是不定的,所以需要重新訓練算法,這種情況下想進行實時對戰就有困難了。但是,ReBeL 可以在幾秒鐘內計算任意任意賭注大小的策略。




<

相關資訊

肇慶高新區領導蒞臨鵬華撲克指導,共謀發展新篇章!
夏天到了,摜蛋一夏,歡樂不打烊!
查看詳情 白箭頭 黑箭頭
廣州市鵬華撲克有限公司喜迎廣東省江西贛州商會一行,共話發展新藍圖!
夏天到了,摜蛋一夏,歡樂不打烊!
查看詳情 白箭頭 黑箭頭
父愛如山,感恩相伴
夏天到了,摜蛋一夏,歡樂不打烊!
查看詳情 白箭頭 黑箭頭

友情鏈接:

關于鵬華

——

 

鵬華簡介


鵬華文化


榮譽資質


合作伙伴

 

 

 

 

新聞資訊

——

 

公司新聞


行業新聞

 

撲克文化

——

 

撲克牌的來歷


撲克牌廣告效益


 

咨詢熱線

聯系電話:

郵箱:[email protected]

 

地址:廣州市增城區新塘鎮民營工業區民營西一橫路2號


網站:tjphchzx.com

公眾號

掃碼添加微信

    <center id="u04kc"></center>
  • 主站蜘蛛池模板: 云安县| 荔浦县| 清流县| 景德镇市| 铁岭市| 普定县| 含山县| 闸北区| 商洛市| 禹城市| 廊坊市| 玉山县| 台山市| 沁水县| 米林县| 邓州市| 通城县| 天长市| 双鸭山市| 左云县| 永靖县| 宕昌县| 宣威市| 郧西县| 申扎县| 平山县| 曲阳县| 抚顺市| 娄底市| 文水县| 蚌埠市| 天峻县| 岐山县| 桑日县| 沙河市| 石台县| 钦州市| 射阳县| 肃北| 乐东| 左贡县|