অনলাইন ডেস্ক
বেশ কয়েক বছর ধরেই এআই বা কৃত্রিম বুদ্ধিমত্তাভিত্তিক নতুন নতুন ধারণা ও মডেল নিয়ে আসছে গুগলের গবেষকেরা। এবার ‘ভ্লগার এআই’ নামের নতুন এক প্রযুক্তি নিয়ে এসেছেন তাঁরা। শুধু একটি ছবির মাধ্যমে বাস্তবসম্মত অ্যাভাটার বা অবতার তৈরি করে দেবে এই মডেল। আর অবতারটি নিজের কন্ঠের মাধ্যমে নিয়ন্ত্রণ করা যাবে।
ভ্লগার এআই কি
বর্তমানে ভ্লগার এআই কতগুলো মজার ভিডিওর উদাহরণসহ শুধু একটি গবেষণা প্রকল্প। তবে মডেলটি উন্মোচন করা হলে তা যোগাযোগের জন্য একটি অনন্য পণ্য হবে।
এআই মডেলটির মাধ্যমে শুধু একটি ছবি থেকে অ্যানিমেটেড অ্যাভাটার তৈরি করা যাবে এবং এটি খুবই বাস্তবসম্মত হবে। অর্থাৎ আসল ব্যক্তির সঙ্গে অবতারটির মিল থাকবে। এই অবতার দিয়ে একটি ভিডিও তৈরি করা যাবে। ভিডিওটি বাস্তবসম্মত হবে।
মডেলটির সঙ্গে অডিও ফাইল যুক্ত করা হবে। ফলে অবতারটি মানুষের মতো কথা বলতে পারবে ও ওই ব্যক্তির মতো অঙ্গভঙ্গি ও ঠোঁটের নড়াচড়া করতে পারবে। এসব অঙ্গভঙ্গির মধ্যে রয়েছে মাথা নাড়ানো, চেহারার অভিব্যক্তি, চোখের চাহনি, পলক ফেলা, হাত নাড়ানো ও শরীরে ওপরের অংশ নাড়ানো। এসব অঙ্গভঙ্গির জন্য ছবি ও অডিও ছাড়া আলাদা কোনো রেফারেন্স দিতে হবে না।
ভ্লগার এআই যেভাবে কাজ করে
ডিফিউশন মডেলের ওপর ভিত্তি করে কাজ করে ভ্লগার এআই। যেসব ডেটার ওপর ভিত্তি করে প্রশিক্ষণ দেওয়া হয় সেগুলোর অনুরূপ ডেটা তৈরি করতে পারে এই ডিফিউশন মডেল। এই প্রযুক্তি সাধারণত মিডজার্নি ও রানওয়ে মডেলের মতো টেক্সট টু ইমেজ ও ৩ডি মডেলে ব্যবহার করা হয়। তবে ভ্লগার এআইকে এসব মডেলের চেয়ে বেশি নিয়ন্ত্রণ করা যাবে।
কয়েকটি ধাপে অবতার তৈরি করে ভ্লগার এআই। প্রথমে এটি অডিও ও ছবিকে ইনপুট হিসেবে গ্রহণ করে। এসব ডেটাকে ৩ডি মোশন জেনারেশনের মাধ্যমে প্রক্রিয়াকরণ করা হয়। এটি ‘টেম্পরাল ডিফিউশন’ মডেল ব্যবহার করে অবতারের নড়াচড়া নির্ধারণ করে। সবশেষে অবতারটিতে চূড়ান্ত করা হয়।
মডেলটি একটি নিউরাল নেটওয়ার্কের মাধ্যমে মুখ, শরীর, অঙ্গভঙ্গি, অভিব্যক্তি ও চাহনি ইত্যাদি অনুমান করে। ভিডিওর প্রথম ফ্রেমের জন্য ছবি ও অবতারটি কী কী করবে তার জন্য অডিও ডেটা ব্যবহার করবে।
এআই মডেলকে প্রশিক্ষণের জন্য মাল্টিমিডিয়া ডেটা সেট ‘মেনটর’ ব্যবহার করা হয়েছে। এতে মানুষের একে অপরের সঙ্গে কথা বলার প্রায় ৮০ হাজার ভিডিও রয়েছে। এসব ভিডিওতে মানুষের মুখ ও শরীর লেবেল করা হয়েছে।
ভ্লগার এআইয়ের সীমাবদ্ধতা
যদিও এই মডেল বাস্তবসম্মত অঙ্গভঙ্গি করতে পারে, তবে প্রতিটি ক্ষেত্রে এটি একই রকম ফলাফল দেখায় না। মুখের কথার সঙ্গে অনেক সময় অবতারের অঙ্গভঙ্গি মিলতে নাও পারে। যেহেতু এটি মূলত একটি ডিফিউশন মডেল তাই এটি মাঝে মধ্যে এর আচরণ উদ্ভট হতে পারে।
গবেষক দল বলেন, মডেলটি বিস্তৃত আচরণ ও সব পরিবেশের ক্ষেত্রে কাজ করে না। আর এর মাধ্যমে শুধু ছোট দৈর্ঘ্যের ভিডিও বানানো যাবে।
যেসব ক্ষেত্রে ভ্লগার এআই ব্যবহার করা যাবে
ভ্লগার এআই ব্যবহারের প্রাথমিক উপায় হলো এটি ভিডিও অনুবাদের জন্য ব্যবহার করা। এই মডেল ভার্চুয়াল অ্যাসিস্ট্যান্ট, চ্যাটবট ও গেমিংয়ের ক্ষেত্রে ভার্চুয়াল চরিত্রের জন্য ব্যবহার করা যায়।
সিনথেসিয়ার মতো মডেলে এই ধরনের টুল আছে। এর মাধ্যমে বিভিন্ন কোম্পানির অফিসে ভার্চুয়াল অবতার তৈরি করা হয়। এসব অবতার প্রেজেন্টেশনে ব্যবহার করা হয়। তবে গুগলের নতুন মডেলটি এই প্রক্রিয়া আরও সহজ করবে।
যেসব জায়গায় দুর্বল নেটওয়ার্কের জন্য ভিডিও যোগাযোগের বিঘ্ন হয় সেখানে মডেলটি কাজে লাগবে। ছবি থেকে অ্যাভাটার তৈরি করে ভিডিও চ্যাটেও সাহায্য করতে পারবে নতুন সংস্করণের এই মডেল।
এ ছাড়া ভার্চুয়াল রিয়্যালিটি প্রযুক্তির জন্যও এই ভিডিও কাজে লাগবে। যেমন, মেটা কোয়েস্ট বা অ্যাপল ভিশন প্রো হেডসেটের জন্য নিজের অবতার তৈরিতে এই মডেল ব্যবহার করা যাবে।
তবে মডেলটি এখনো পরীক্ষা–নিরীক্ষামূলক পর্যায়ে রয়েছে। তাই সাধারণ গ্রাহকেরা ব্যবহার জন্য উন্মুক্ত করতে আরও সময়ের প্রয়োজন।
তথ্যসূত্র: টমস গাইড
প্রযুক্তি সম্পর্কিত আরও পড়ুন:
বেশ কয়েক বছর ধরেই এআই বা কৃত্রিম বুদ্ধিমত্তাভিত্তিক নতুন নতুন ধারণা ও মডেল নিয়ে আসছে গুগলের গবেষকেরা। এবার ‘ভ্লগার এআই’ নামের নতুন এক প্রযুক্তি নিয়ে এসেছেন তাঁরা। শুধু একটি ছবির মাধ্যমে বাস্তবসম্মত অ্যাভাটার বা অবতার তৈরি করে দেবে এই মডেল। আর অবতারটি নিজের কন্ঠের মাধ্যমে নিয়ন্ত্রণ করা যাবে।
ভ্লগার এআই কি
বর্তমানে ভ্লগার এআই কতগুলো মজার ভিডিওর উদাহরণসহ শুধু একটি গবেষণা প্রকল্প। তবে মডেলটি উন্মোচন করা হলে তা যোগাযোগের জন্য একটি অনন্য পণ্য হবে।
এআই মডেলটির মাধ্যমে শুধু একটি ছবি থেকে অ্যানিমেটেড অ্যাভাটার তৈরি করা যাবে এবং এটি খুবই বাস্তবসম্মত হবে। অর্থাৎ আসল ব্যক্তির সঙ্গে অবতারটির মিল থাকবে। এই অবতার দিয়ে একটি ভিডিও তৈরি করা যাবে। ভিডিওটি বাস্তবসম্মত হবে।
মডেলটির সঙ্গে অডিও ফাইল যুক্ত করা হবে। ফলে অবতারটি মানুষের মতো কথা বলতে পারবে ও ওই ব্যক্তির মতো অঙ্গভঙ্গি ও ঠোঁটের নড়াচড়া করতে পারবে। এসব অঙ্গভঙ্গির মধ্যে রয়েছে মাথা নাড়ানো, চেহারার অভিব্যক্তি, চোখের চাহনি, পলক ফেলা, হাত নাড়ানো ও শরীরে ওপরের অংশ নাড়ানো। এসব অঙ্গভঙ্গির জন্য ছবি ও অডিও ছাড়া আলাদা কোনো রেফারেন্স দিতে হবে না।
ভ্লগার এআই যেভাবে কাজ করে
ডিফিউশন মডেলের ওপর ভিত্তি করে কাজ করে ভ্লগার এআই। যেসব ডেটার ওপর ভিত্তি করে প্রশিক্ষণ দেওয়া হয় সেগুলোর অনুরূপ ডেটা তৈরি করতে পারে এই ডিফিউশন মডেল। এই প্রযুক্তি সাধারণত মিডজার্নি ও রানওয়ে মডেলের মতো টেক্সট টু ইমেজ ও ৩ডি মডেলে ব্যবহার করা হয়। তবে ভ্লগার এআইকে এসব মডেলের চেয়ে বেশি নিয়ন্ত্রণ করা যাবে।
কয়েকটি ধাপে অবতার তৈরি করে ভ্লগার এআই। প্রথমে এটি অডিও ও ছবিকে ইনপুট হিসেবে গ্রহণ করে। এসব ডেটাকে ৩ডি মোশন জেনারেশনের মাধ্যমে প্রক্রিয়াকরণ করা হয়। এটি ‘টেম্পরাল ডিফিউশন’ মডেল ব্যবহার করে অবতারের নড়াচড়া নির্ধারণ করে। সবশেষে অবতারটিতে চূড়ান্ত করা হয়।
মডেলটি একটি নিউরাল নেটওয়ার্কের মাধ্যমে মুখ, শরীর, অঙ্গভঙ্গি, অভিব্যক্তি ও চাহনি ইত্যাদি অনুমান করে। ভিডিওর প্রথম ফ্রেমের জন্য ছবি ও অবতারটি কী কী করবে তার জন্য অডিও ডেটা ব্যবহার করবে।
এআই মডেলকে প্রশিক্ষণের জন্য মাল্টিমিডিয়া ডেটা সেট ‘মেনটর’ ব্যবহার করা হয়েছে। এতে মানুষের একে অপরের সঙ্গে কথা বলার প্রায় ৮০ হাজার ভিডিও রয়েছে। এসব ভিডিওতে মানুষের মুখ ও শরীর লেবেল করা হয়েছে।
ভ্লগার এআইয়ের সীমাবদ্ধতা
যদিও এই মডেল বাস্তবসম্মত অঙ্গভঙ্গি করতে পারে, তবে প্রতিটি ক্ষেত্রে এটি একই রকম ফলাফল দেখায় না। মুখের কথার সঙ্গে অনেক সময় অবতারের অঙ্গভঙ্গি মিলতে নাও পারে। যেহেতু এটি মূলত একটি ডিফিউশন মডেল তাই এটি মাঝে মধ্যে এর আচরণ উদ্ভট হতে পারে।
গবেষক দল বলেন, মডেলটি বিস্তৃত আচরণ ও সব পরিবেশের ক্ষেত্রে কাজ করে না। আর এর মাধ্যমে শুধু ছোট দৈর্ঘ্যের ভিডিও বানানো যাবে।
যেসব ক্ষেত্রে ভ্লগার এআই ব্যবহার করা যাবে
ভ্লগার এআই ব্যবহারের প্রাথমিক উপায় হলো এটি ভিডিও অনুবাদের জন্য ব্যবহার করা। এই মডেল ভার্চুয়াল অ্যাসিস্ট্যান্ট, চ্যাটবট ও গেমিংয়ের ক্ষেত্রে ভার্চুয়াল চরিত্রের জন্য ব্যবহার করা যায়।
সিনথেসিয়ার মতো মডেলে এই ধরনের টুল আছে। এর মাধ্যমে বিভিন্ন কোম্পানির অফিসে ভার্চুয়াল অবতার তৈরি করা হয়। এসব অবতার প্রেজেন্টেশনে ব্যবহার করা হয়। তবে গুগলের নতুন মডেলটি এই প্রক্রিয়া আরও সহজ করবে।
যেসব জায়গায় দুর্বল নেটওয়ার্কের জন্য ভিডিও যোগাযোগের বিঘ্ন হয় সেখানে মডেলটি কাজে লাগবে। ছবি থেকে অ্যাভাটার তৈরি করে ভিডিও চ্যাটেও সাহায্য করতে পারবে নতুন সংস্করণের এই মডেল।
এ ছাড়া ভার্চুয়াল রিয়্যালিটি প্রযুক্তির জন্যও এই ভিডিও কাজে লাগবে। যেমন, মেটা কোয়েস্ট বা অ্যাপল ভিশন প্রো হেডসেটের জন্য নিজের অবতার তৈরিতে এই মডেল ব্যবহার করা যাবে।
তবে মডেলটি এখনো পরীক্ষা–নিরীক্ষামূলক পর্যায়ে রয়েছে। তাই সাধারণ গ্রাহকেরা ব্যবহার জন্য উন্মুক্ত করতে আরও সময়ের প্রয়োজন।
তথ্যসূত্র: টমস গাইড
প্রযুক্তি সম্পর্কিত আরও পড়ুন:
স্মার্টফোন ব্র্যান্ড অপো এবার বাংলাদেশের বাজারে আনছে রেনো ১৩ সিরিজ। শিগগিরই দেশে উন্মোচন হতে যাচ্ছে এ সিরিজের স্মার্টফোন। প্রকৃতি থেকে অনুপ্রাণিত আকর্ষণীয় ডিজাইন, সর্বাধুনিক প্রযুক্তির ব্যবহার এবং অনবদ্য ফ্যাশন উপকরণের সমন্বয়ে এই ডিভাইসটি গ্রাহকদের অভিজ্ঞতাই বদলে দিতে পারে! বাটারফ্লাই শ্যাডো এবং লুম
৪ ঘণ্টা আগেইন্টারনেটে ব্রাউজিংয়ের জন্য অন্যতম জনপ্রিয় ব্রাউজার হলো গুগল ক্রোম। তাই সাইবার অপরাধীদের কাছে হ্যাকিংয়ের একটি প্রধান লক্ষ্য হয়ে দাঁড়িয়েছে এটি। ব্রাউজারটির বিভিন্ন দুর্বলতা ব্যবহার করে ব্যবহারকারীর ডেটা ‘হাইজ্যাক’ করার চেষ্টা করে হ্যাকাররা। সম্প্রতি এমন একটি সাইবার হামলা ক্রোমে ঘটতে দেখা যাচ্ছে। এর ফ
১ দিন আগেমার্কিন নির্বাচনে ডোনাল্ড ট্রাম্প বিজয়ী হওয়ার পর মেটার বিভিন্ন নীতিতে পরিবর্তন নিয়ে এসেছেন সিইও মার্ক জাকারবার্গ। তবে সাম্প্রতিক পরিবর্তনগুলো নিয়ে কোম্পানিটির কর্মীদের মধ্যে অস্বস্তি দেখা গেছে। বিশেষ করে মেটার ফ্যাক্ট চেকিং ফিচার ও ডাইভারসিটি প্রোগ্রাম বন্ধের সিদ্ধান্তের জন্য। অবশেষে, গত বৃহস্পতিবার
১ দিন আগেসারা বিশ্বের প্রযুক্তি বাজারকে কাঁপিয়ে দিয়েছে চীনের কৃত্রিম বুদ্ধিমত্তা (এআই) গবেষণা প্রতিষ্ঠান ডিপসিকের তৈরি করা নতুন এআই ভাষা মডেল ‘ডিপসিক আর১ ’। তাই এই প্রতিযোগিতায় নিজেদের আধিপত্য বজায় রাখতে রিজনিং মডেল ‘ও ৩ মিনি’ বিনা মূল্যে ব্যবহারে সুযোগ দিচ্ছে ওপেনএআই।
১ দিন আগে