মেটাভার্স সর্বশেষ অডিটরি এআই আরও নিমগ্ন হওয়ার প্রতিশ্রুতি দেয়

মেটাভার্স এর সর্বশেষ অডিটরি এ আই

মেটাভার্স, মেটা সিইও মার্ক জুকারবার্গ এটিকে কল্পনা করেছেন, এটি একটি সম্পূর্ণ নিমগ্ন ভার্চুয়াল অভিজ্ঞতা হবে যা বাস্তবতার প্রতিদ্বন্দ্বী। কিন্তু ভিজ্যুয়ালগুলি সামগ্রিক মেটাভার্স অভিজ্ঞতার অংশ মাত্র।

শুক্রবারের একটি ব্লগ পোস্টে জুকারবার্গ লিখেছেন, “মেটাভার্সে উপস্থিতির একটি বাস্তবসম্মত অনুভূতি প্রদানের জন্য স্থানিক অডিওর অধিকার পাওয়া চাবিকাঠি।

“যদি আপনি একটি কনসার্টে থাকেন, বা শুধুমাত্র একটি ভার্চুয়াল টেবিলের চারপাশে বন্ধুদের সাথে কথা বলেন, তাহলে শব্দ কোথা থেকে আসছে তার একটি বাস্তবসম্মত ধারণা আপনাকে অনুভব করে যে আপনি আসলে সেখানে আছেন।”

সেই কনসার্টটি, ব্লগ পোস্ট নোট, তাদের শারীরিক স্থান এবং ধ্বনিবিদ্যার মধ্যে পার্থক্যের কারণে একটি মিডল স্কুল অডিটোরিয়ামের তুলনায় একটি পূর্ণ-আকারের কনসার্ট হলে পরিবেশিত হলে খুব আলাদা শোনাবে।

যেমন, Meta’s AI এবং Reality Lab (MAIR, পূর্বে FAIR) ওপেন সোর্স অডিও “বোঝার কাজ” এর একটি ত্রয়ী বিকাশ করতে UT অস্টিনের গবেষকদের সাথে সহযোগিতা করছে যা বিকাশকারীদের আরও প্রাণবন্ত অডিও সহ আরও নিমজ্জিত AR এবং VR অভিজ্ঞতা তৈরি করতে সাহায্য করবে৷

প্রথমটি হল MAIR এর ভিজ্যুয়াল অ্যাকোস্টিক ম্যাচিং মডেল, যেটি শুধুমাত্র স্থানের একটি ছবি ব্যবহার করে যে কোনো পরিবেশে একটি নমুনা অডিও ক্লিপ মানিয়ে নিতে পারে। সান ফ্রান্সিসকোর বুম বুম রুমের ভিতরে এনওয়াই ফিলহারমনিকের শব্দ কেমন হবে তা শুনতে চান?

এখন তুমি পার. পূর্ববর্তী সিমুলেশন মডেলগুলি তার বিন্যাসের উপর ভিত্তি করে একটি ঘরের ধ্বনিতত্ত্ব পুনরায় তৈরি করতে সক্ষম হয়েছিল – তবে শুধুমাত্র যদি সুনির্দিষ্ট জ্যামিতি এবং বস্তুগত বৈশিষ্ট্যগুলি ইতিমধ্যেই পরিচিত ছিল – বা স্থানের মধ্যে নমুনাকৃত অডিও থেকে, যার কোনটিই বিশেষভাবে সঠিক ফলাফল দেয়নি।

MAIR-এর সমাধান হল ভিজ্যুয়াল অ্যাকোস্টিক ম্যাচিং মডেল, যাকে বলা হয় AViTAR, যেটি “ইন-দ্য-ওয়াইল্ড ওয়েব ভিডিও থেকে অ্যাকোস্টিক ম্যাচিং শেখে, তাদের অ্যাকোস্টিকভাবে অমিল অডিও এবং লেবেলবিহীন ডেটার অভাব থাকা সত্ত্বেও,” পোস্ট অনুসারে।

“মেটাভার্স ভবিষ্যত ব্যবহারের একটি ক্ষেত্রে আমরা অতীতের স্মৃতিগুলিকে পুনরুজ্জীবিত করতে আগ্রহী,” জুকারবার্গ লিখেছেন, নস্টালজিয়া নিয়ে বাজি ধরে৷ “কল্পনা করুন একজোড়া এআর চশমা পরতে এবং এর সাথে যুক্ত মেমরি খেলার বিকল্প সহ একটি বস্তু দেখুন।

যেমন একটি টুটু তোলা এবং আপনার সন্তানের ব্যালে আবৃত্তির একটি হলোগ্রাম দেখা। অডিওটি প্রতিধ্বনিকে দূরে সরিয়ে দেয় এবং শ্রোতাদের মধ্যে আপনার সঠিক আসনে বসে আপনার অভিজ্ঞতার মতো স্মৃতিকে শব্দ করে তোলে।”

অন্যদিকে, MAIR-এর ভিজ্যুয়াল-ইনফর্মড ডিরেভারবারেশন মোড (VIDA), একটি সাবওয়ে স্টেশন বা ক্যাথেড্রালের মতো একটি বড়, খোলা জায়গায় একটি যন্ত্র বাজানো থেকে প্রতিধ্বনি প্রভাবকে সরিয়ে দেবে। আপনি কেবল বেহালা শুনতে পাবেন, দূরবর্তী পৃষ্ঠ থেকে লাফানোর শব্দ নয়। বিশেষত, এটি “পর্যবেক্ষিত শব্দ এবং ভিজ্যুয়াল স্ট্রিম উভয়ের উপর ভিত্তি করে প্রতিধ্বনি অপসারণ করতে শেখে।

যা ঘরের জ্যামিতি, উপকরণ এবং স্পিকারের অবস্থান সম্পর্কে সংকেত প্রকাশ করে,” পোস্টটি ব্যাখ্যা করেছে। এই প্রযুক্তিটি ভোকাল এবং কথ্য কমান্ডগুলিকে আরও কার্যকরভাবে বিচ্ছিন্ন করার জন্য ব্যবহার করা যেতে পারে, যা মানুষ এবং মেশিন উভয়ের পক্ষে বোঝা সহজ করে তোলে।

VisualVoice VIDA এর মতই করে কিন্তু ভয়েসের জন্য। এটি স্ব-তত্ত্বাবধানে প্রশিক্ষণ সেশনের সময় ব্যাকগ্রাউন্ডের শব্দ থেকে ভয়েসকে কীভাবে আলাদা করতে হয় তা শিখতে ভিজ্যুয়াল এবং অডিও উভয় ইঙ্গিত ব্যবহার করে। মেটা অনুমান করে যে এই মডেলটি মেশিন বোঝার অ্যাপ্লিকেশনগুলিতে এবং অ্যাক্সেসযোগ্যতা উন্নত করতে অনেক কাজ পাবে।

চিন্তা করুন, আরও সঠিক সাবটাইটেল, সিরি আপনার অনুরোধ বুঝতে পারছে এমনকি যখন রুমটি নিঃশব্দে নেই বা ভার্চুয়াল চ্যাট রুম শিফটে ধ্বনিবিদ্যা থাকা সত্ত্বেও যখন লোকেরা ডিজিটাল রুমের চারপাশে ঘুরছে। আবার, শুধু পায়ের অভাব উপেক্ষা করুন।

“আমরা এমন একটি ভবিষ্যৎ কল্পনা করি যেখানে লোকেরা AR চশমা লাগাতে পারে এবং একটি হলোগ্রাফিক স্মৃতিকে পুনরুজ্জীবিত করতে পারে যা তাদের সুবিধার পয়েন্ট থেকে তারা যেভাবে অনুভব করেছিল ঠিক সেইভাবে দেখায় এবং শব্দ করে, অথবা শুধুমাত্র গ্রাফিক্স নয় বরং শব্দের দ্বারাও নিমগ্ন বোধ করতে পারে যখন তারা গেম খেলে।

ভার্চুয়াল ওয়ার্ল্ড,” জুকারবার্গ লিখেছেন, উল্লেখ করেছেন যে AViTAR এবং VIDA তাদের কাজগুলি শুধুমাত্র একটি ছবিতে প্রয়োগ করতে পারে যার জন্য তারা প্রশিক্ষিত হয়েছিল এবং প্রকাশ্য মুক্তির আগে তাদের আরও অনেক উন্নয়নের প্রয়োজন হবে৷ “এই মডেলগুলি আমাদেরকে মাল্টিমোডাল, নিমজ্জিত অভিজ্ঞতার আরও কাছাকাছি নিয়ে আসছে যা আমরা ভবিষ্যতে তৈরি করতে চাই।”