কেন পলিসি গ্রেডিয়েন্ট মেথড এত ভাল কাজ করে

কেন পলিসি গ্রেডিয়েন্ট মেথড এত ভাল কাজ করে

সমবায় মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং (MARL), এর কারণে অন-পলিসি প্রকৃতি, নীতি গ্রেডিয়েন্ট (পিজি) পদ্ধতিগুলি সাধারণত মান পচন (ভিডি) পদ্ধতির তুলনায় কম নমুনা দক্ষ বলে মনে করা হয়, যা অফ পলিসি. যাইহোক, কিছু সাম্প্রতিক অভিজ্ঞতামূলক গবেষণা দেখায় যে সঠিক ইনপুট উপস্থাপনা এবং হাইপার-প্যারামিটার টিউনিং সহ, মাল্টি-এজেন্ট পিজি অফ-পলিসি ভিডি পদ্ধতির তুলনায় আশ্চর্যজনকভাবে শক্তিশালী কর্মক্ষমতা অর্জন করতে পারে।

কেন পিজি পদ্ধতি এত ভাল কাজ করতে পারে? এই পোস্টে, আমরা নির্দিষ্ট পরিস্থিতিতে, যেমন, একটি উচ্চ মাল্টি-মডেল পুরস্কারের ল্যান্ডস্কেপ সহ পরিবেশে, ভিডি সমস্যাযুক্ত হতে পারে এবং অবাঞ্ছিত ফলাফলের দিকে নিয়ে যেতে পারে তা দেখানোর জন্য সুনির্দিষ্ট বিশ্লেষণ উপস্থাপন করব। বিপরীতে, স্বতন্ত্র পলিসি সহ পিজি পদ্ধতিগুলি এই ক্ষেত্রে একটি সর্বোত্তম নীতিতে রূপান্তরিত হতে পারে। এছাড়াও, অটো-রিগ্রেসিভ (এআর) নীতি সহ পিজি পদ্ধতিগুলি মাল্টি-মোডাল নীতিগুলি শিখতে পারে।


চিত্র 1: 4-প্লেয়ার পারমুটেশন গেমের জন্য বিভিন্ন নীতি উপস্থাপনা।

কোঅপারেটিভ MARL-এ CTDE: VD এবং PG পদ্ধতি

কেন্দ্রীভূত প্রশিক্ষণ এবং বিকেন্দ্রীভূত সম্পাদন (CTDE) সমবায় MARL-এর একটি জনপ্রিয় কাঠামো। এটা লিভারেজ বিশ্বব্যাপী পরীক্ষার জন্য পৃথক নীতির উপস্থাপনা রেখে আরও কার্যকর প্রশিক্ষণের জন্য তথ্য। CTDE মান পচন (VD) বা পলিসি গ্রেডিয়েন্ট (PG) মাধ্যমে প্রয়োগ করা যেতে পারে, যা দুটি ভিন্ন ধরনের অ্যালগরিদমের দিকে পরিচালিত করে।

ভিডি পদ্ধতিগুলি স্থানীয় Q নেটওয়ার্ক এবং একটি মিক্সিং ফাংশন শিখে যা স্থানীয় Q নেটওয়ার্কগুলিকে একটি গ্লোবাল Q ফাংশনে মিশ্রিত করে। মিক্সিং ফাংশনটি সাধারণত ব্যক্তি-গ্লোবাল-ম্যাক্স (IGM) নীতিকে সন্তুষ্ট করার জন্য প্রয়োগ করা হয়, যা সর্বোত্তম যৌথ কর্মের গ্যারান্টি দেয় লোভের সাথে প্রতিটি এজেন্টের জন্য স্থানীয়ভাবে সর্বোত্তম ক্রিয়া বেছে নেওয়ার মাধ্যমে গণনা করা যেতে পারে।

বিপরীতে, পিজি পদ্ধতিগুলি প্রতিটি এজেন্টের জন্য একটি পৃথক নীতি এবং একটি কেন্দ্রীভূত মান ফাংশন শিখতে সরাসরি নীতি গ্রেডিয়েন্ট প্রয়োগ করে। একটি সঠিক বৈশ্বিক মূল্য অনুমানের জন্য মান ফাংশনটি তার বৈশ্বিক অবস্থা (যেমন, MAPPO) বা সমস্ত স্থানীয় পর্যবেক্ষণের (যেমন, MADDPG) ইনপুট হিসাবে গ্রহণ করে।

পারমুটেশন গেম: একটি সহজ পাল্টা উদাহরণ যেখানে ভিডি ব্যর্থ হয়

আমরা একটি রাষ্ট্রবিহীন সমবায় খেলা বিবেচনা করে আমাদের বিশ্লেষণ শুরু করি, যথাক্রমানুযায়ী খেলা। একটি মধ্যে এন-প্লেয়ার পারমুটেশন গেম, প্রতিটি এজেন্ট আউটপুট করতে পারে এন কর্ম { 1, ldots, N }. এজেন্টরা গ্রহণ করেন +1 পুরষ্কার যদি তাদের ক্রিয়াগুলি পারস্পরিকভাবে ভিন্ন হয়, অর্থাত, যৌথ ক্রিয়াটি একটি স্থানান্তর ওভার 1, ldots, N; অন্যথায়, তারা গ্রহণ করে 0 পুরস্কার উল্লেখ্য যে আছে এন! এই গেমে প্রতিসম সর্বোত্তম কৌশল।


চিত্র 2: 4-প্লেয়ার পারমুটেশন গেম।

আমাদের আলোচনার জন্য 2-প্লেয়ার পারমুটেশন গেমের উপর ফোকাস করা যাক। এই সেটিংয়ে, আমরা যদি গেমটিতে ভিডি প্রয়োগ করি, তাহলে বিশ্বব্যাপী Q-মান ফ্যাক্টরাইজ হবে

[Q_textrm{tot}(a^1,a^2)=f_textrm{mix}(Q_1(a^1),Q_2(a^2)),]

কোথায় প্রশ্ন_১ এবং প্রশ্ন_২ স্থানীয় Q- ফাংশন, Q_textrm{tot} বিশ্বব্যাপী Q-ফাংশন, এবং f_textrm{মিক্স} মিক্সিং ফাংশন যা VD পদ্ধতির প্রয়োজন অনুসারে, IGM নীতিকে সন্তুষ্ট করে।


চিত্র 3: ভিডি কেন 2-প্লেয়ার পারমুটেশন গেমে ব্যর্থ হয় সে সম্পর্কে উচ্চ-স্তরের অন্তর্দৃষ্টি।

আমরা আনুষ্ঠানিকভাবে প্রমাণ করি যে VD দ্বন্দ্ব দ্বারা 2-প্লেয়ার পারমুটেশন গেমের অর্থ প্রদান করতে পারে না। যদি ভিডি পদ্ধতিগুলি অর্থ প্রদানের প্রতিনিধিত্ব করতে সক্ষম হয় তবে আমাদের হবে

[Q_textrm{tot}(1, 2)=Q_textrm{tot}(2,1)=1 qquad textrm{and} qquad Q_textrm{tot}(1, 1)=Q_textrm{tot}(2,2)=0.]

যাইহোক, যদি এই দুটি এজেন্টের যেকোনো একটির আলাদা স্থানীয় Q মান থাকে, যেমন Q_1(2)” title=”QuickLaTeX.com দ্বারা রেন্ডার করা হয়েছে” height=”19″ width=”112″ style=”vertical-align: -5px;”/>তারপর IGM নীতি অনুযায়ী, আমাদের থাকতে হবে

[1=Q_textrm{tot}(1,2)=argmax_{a^2}Q_textrm{tot}(1,a^2)>argmax_{a^2}Q_textrm{tot}(2,a^2)=Q_textrm{tot}(2,1)=1.]

অন্যথায়, যদি Q_1(1)=Q_1(2) এবং Q_2(1)=Q_2(2)তারপর

[Q_textrm{tot}(1, 1)=Q_textrm{tot}(2,2)=Q_textrm{tot}(1, 2)=Q_textrm{tot}(2,1).]

ফলস্বরূপ, মান পচন 2-প্লেয়ার ক্রমিউটেশন গেমের পেঅফ ম্যাট্রিক্সকে উপস্থাপন করতে পারে না।

পিজি পদ্ধতি সম্পর্কে কি? ব্যক্তিগত নীতিগুলি প্রকৃতপক্ষে পারমুটেশন গেমের জন্য একটি সর্বোত্তম নীতি উপস্থাপন করতে পারে। তাছাড়া, স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট PG-কে মৃদু অনুমানের অধীনে এই অপটিমাগুলির মধ্যে একত্রিত করার গ্যারান্টি দিতে পারে। এটি পরামর্শ দেয় যে, ভিডি পদ্ধতির তুলনায় MARL-এ পিজি পদ্ধতিগুলি কম জনপ্রিয় হলেও, বাস্তব-বিশ্বের অ্যাপ্লিকেশানগুলিতে সাধারণ, যেমন একাধিক কৌশল পদ্ধতি সহ গেমগুলির ক্ষেত্রে এগুলি পছন্দের হতে পারে।

আমরা এও মন্তব্য করি যে পারমুটেশন গেমে, একটি সর্বোত্তম যৌথ নীতির প্রতিনিধিত্ব করার জন্য, প্রতিটি এজেন্টকে অবশ্যই স্বতন্ত্র কর্ম বেছে নিতে হবে। ফলস্বরূপ, PG-এর সফল বাস্তবায়ন নিশ্চিত করতে হবে যে নীতিগুলি এজেন্ট-নির্দিষ্ট। এটি শেয়ার না করা প্যারামিটার সহ পৃথক নীতি (আমাদের কাগজে PG-Ind হিসাবে উল্লেখ করা হয়েছে), অথবা একটি এজেন্ট-আইডি শর্তযুক্ত নীতি (PG-ID) ব্যবহার করে করা যেতে পারে।

পারমুটেশন গেমের সাধারণ উদাহরণের বাইরে গিয়ে, আমরা আমাদের অধ্যয়নকে জনপ্রিয় এবং আরও বাস্তবসম্মত MARL বেঞ্চমার্কগুলিতে প্রসারিত করি। StarCraft মাল্টি-এজেন্ট চ্যালেঞ্জ (SMAC) ছাড়াও, যেখানে PG এবং এজেন্ট-কন্ডিশনড পলিসি ইনপুটের কার্যকারিতা যাচাই করা হয়েছে, আমরা Google Research Football (GRF) এবং মাল্টি-প্লেয়ার হানাবি চ্যালেঞ্জে নতুন ফলাফল দেখাই।



চিত্র 4: (শীর্ষ) জিআরএফ-এ পিজি পদ্ধতির জয়ের হার; (নীচে) হানাবি-ফুলের সেরা এবং গড় মূল্যায়ন স্কোর।

GRF-এ, PG পদ্ধতিগুলি 5টি পরিস্থিতিতে অত্যাধুনিক ভিডি বেসলাইন (CDS) কে ছাড়িয়ে যায়। মজার বিষয় হল, আমরা এটাও লক্ষ্য করেছি যে প্যারামিটার শেয়ারিং ছাড়াই পৃথক পলিসি (PG-Ind) সমস্ত 5টি পরিস্থিতিতে এজেন্ট-নির্দিষ্ট নীতির (PG-ID) তুলনায় তুলনামূলক, কখনও কখনও এমনকি উচ্চ জয়ের হার অর্জন করে। আমরা বিভিন্ন সংখ্যক খেলোয়াড় (2-5 খেলোয়াড়) সহ পূর্ণ-স্কেল হানাবি গেমে PG-ID মূল্যায়ন করি এবং সেগুলিকে SAD-এর সাথে তুলনা করি, হানাবির একটি শক্তিশালী অফ-পলিসি Q-লার্নিং বৈকল্পিক, এবং ভ্যালু ডিকোপোজিশন নেটওয়ার্ক (VDN)। উপরের সারণীতে যেমন দেখানো হয়েছে, PG-ID একই সংখ্যক পরিবেশ পদক্ষেপ ব্যবহার করে বিভিন্ন সংখ্যক খেলোয়াড়ের সাথে SAD এবং VDN দ্বারা অর্জিত সেরা এবং গড় পুরষ্কারের তুলনায় বা তার চেয়ে ভাল ফলাফল তৈরি করতে সক্ষম।

উচ্চতর পুরস্কারের বাইরে: অটো-রিগ্রেসিভ পলিসি মডেলিংয়ের মাধ্যমে মাল্টি-মোডাল আচরণ শেখা

উচ্চতর পুরষ্কার শেখার পাশাপাশি, আমরা সমবায় MARL-এ মাল্টি-মডেল নীতিগুলি কীভাবে শিখতে হয় তাও অধ্যয়ন করি। এর পারমুটেশন গেমে ফিরে যাওয়া যাক। যদিও আমরা প্রমাণ করেছি যে পিজি কার্যকরভাবে একটি সর্বোত্তম নীতি শিখতে পারে, তবে এটি শেষ পর্যন্ত যে কৌশল মোডে পৌঁছায় তা নীতি প্রাথমিককরণের উপর অত্যন্ত নির্ভর করতে পারে। সুতরাং, একটি স্বাভাবিক প্রশ্ন হবে:


আমরা কি একটি একক নীতি শিখতে পারি যা সমস্ত সর্বোত্তম মোড কভার করতে পারে?

বিকেন্দ্রীভূত পিজি প্রণয়নে, যৌথ নীতির ফ্যাক্টরাইজড উপস্থাপনা শুধুমাত্র একটি নির্দিষ্ট মোডকে উপস্থাপন করতে পারে। অতএব, আমরা আরও শক্তিশালী অভিব্যক্তির জন্য নীতিগুলিকে প্যারামিটারাইজ করার একটি বর্ধিত উপায় প্রস্তাব করছি — অটো-রিগ্রেসিভ (AR) নীতিগুলি৷


চিত্র 5: 4-প্লেয়ার পারমুটেশন গেমে পৃথক নীতি (PG) এবং অটো-রিগ্রেসিভ পলিসি (AR) এর মধ্যে তুলনা।

আনুষ্ঠানিকভাবে, আমরা যৌথ নীতিকে ফ্যাক্টরাইজ করি n আকারে এজেন্ট

[pi(mathbf{a} mid mathbf{o}) approx prod_{i=1}^n pi_{theta^{i}} left( a^{i}mid o^{i},a^{1},ldots,a^{i-1} right),]

যেখানে এজেন্ট দ্বারা উত্পাদিত কর্ম i তার নিজস্ব পর্যবেক্ষণের উপর নির্ভর করে o_i এবং পূর্ববর্তী এজেন্টদের সমস্ত কর্ম 1,  বিন্দু, i-1. অটো-রিগ্রেসিভ ফ্যাক্টরাইজেশন প্রতিনিধিত্ব করতে পারে যেকোনো একটি কেন্দ্রীভূত এমডিপিতে যৌথ নীতি। দ্য কেবল প্রতিটি এজেন্টের নীতির পরিবর্তন হল ইনপুট মাত্রা, যা পূর্ববর্তী ক্রিয়াগুলি অন্তর্ভুক্ত করে কিছুটা বড় করা হয়; এবং প্রতিটি এজেন্টের নীতির আউটপুট মাত্রা অপরিবর্তিত থাকে।

এই ধরনের একটি ন্যূনতম প্যারামিটারাইজেশন ওভারহেডের সাথে, AR নীতি PG পদ্ধতির উপস্থাপনা ক্ষমতাকে উল্লেখযোগ্যভাবে উন্নত করে। আমরা মন্তব্য করি যে PG-এর সাথে AR পলিসি (PG-AR) একযোগে পারমুটেশন গেমে সমস্ত সর্বোত্তম পলিসি মোড উপস্থাপন করতে পারে।


চিত্র: PG-Ind (বাম) এবং PG-AR (মাঝখানে) দ্বারা শেখা নীতিগুলির জন্য কর্মের হিটম্যাপ এবং পুরস্কারের জন্য হিটম্যাপ (ডান); যখন PG-Ind শুধুমাত্র 4-প্লেয়ার পারমুটেশন গেমে একটি নির্দিষ্ট মোডে একত্রিত হয়, তখন PG-AR সফলভাবে সমস্ত সর্বোত্তম মোড আবিষ্কার করে।

SMAC এবং GRF সহ আরও জটিল পরিবেশে, PG-AR আকর্ষণীয় উদীয়মান আচরণগুলি শিখতে পারে যার জন্য শক্তিশালী ইন্ট্রা-এজেন্ট সমন্বয় প্রয়োজন যা PG-Ind দ্বারা কখনই শেখা যাবে না।



চিত্র 6: (শীর্ষ) SMAC এবং GRF-এ PG-AR দ্বারা উদ্ভূত উদ্ভূত আচরণ। SMAC-এর 2m_vs_1z মানচিত্রে, মেরিনরা দাঁড়িয়ে থাকে এবং পর্যায়ক্রমে আক্রমণ করে এবং নিশ্চিত করে যে প্রতিটি টাইমস্টেপে শুধুমাত্র একজন আক্রমণকারী সামুদ্রিক আছে; (নীচে) GRF-এর একাডেমি_3_vs_1_with_keeper দৃশ্যে, এজেন্টরা একটি “টিকি-টাকা” শৈলীর আচরণ শিখে: প্রতিটি খেলোয়াড় তাদের সতীর্থদের কাছে বল পাঠাতে থাকে।

আলোচনা এবং Takeaways

এই পোস্টে, আমরা সমবায় MARL-এ VD এবং PG পদ্ধতির একটি সুনির্দিষ্ট বিশ্লেষণ প্রদান করি। প্রথমত, আমরা জনপ্রিয় ভিডি পদ্ধতিগুলির অভিব্যক্তির সীমাবদ্ধতা প্রকাশ করি, এটি দেখায় যে তারা একটি সাধারণ স্থানচ্যুতি গেমেও সর্বোত্তম নীতিগুলি উপস্থাপন করতে পারে না। বিপরীতে, আমরা দেখাই যে পিজি পদ্ধতিগুলি সম্ভবত আরও অভিব্যক্তিপূর্ণ। আমরা SMAC, GRF, এবং Hanabi Challenge সহ জনপ্রিয় MARL টেস্টবেডগুলিতে PG-এর অভিব্যক্তিগত সুবিধা পরীক্ষামূলকভাবে যাচাই করি। আমরা আশা করি এই কাজের অন্তর্দৃষ্টিগুলি ভবিষ্যতে আরও সাধারণ এবং আরও শক্তিশালী সমবায় MARL অ্যালগরিদমের দিকে সম্প্রদায়কে উপকৃত করতে পারে৷


এই পোস্টটি জেলাই জু এর সাথে যৌথভাবে আমাদের পেপারের উপর ভিত্তি করে তৈরি করা হয়েছে: সমবায় মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং (কাগজ, ওয়েবসাইট) এর কিছু সাধারণ অনুশীলনের পুনর্বিবেচনা।


BAIR ব্লগ বার্কলে কৃত্রিম বুদ্ধিমত্তা গবেষণা (BAIR) ল্যাবের অফিসিয়াল ব্লগ।

BAIR ব্লগ বার্কলে কৃত্রিম বুদ্ধিমত্তা গবেষণা (BAIR) ল্যাবের অফিসিয়াল ব্লগ।