হাতে-করি অনুশীলন
এই অনুশীলনটি গ্রেড করা হয়নি এবং কোর্সের বাকি অংশ জুড়ে আপনি যে টুলস এবং লাইব্রেরিগুলি ব্যবহার করবেন তার সাথে পরিচিত হতে সাহায্য করার উদ্দেশ্যে করা হয়েছে। আপনি যদি ইতিমধ্যেই Google Colab, 🤗 datasets, librosa এবং 🤗 transformers ব্যবহারে অভিজ্ঞ হয়ে থাকেন, তাহলে আপনি এই অনুশীলনটি এড়িয়ে যেতে পারেন।
১. একটি Google Colab নোটবুক তৈরি করুন।
২. স্ট্রিমিং মোডে আপনার পছন্দের ভাষায় facebook/voxpopuli
ডেটাসেট এর train
স্প্লিটটি লোড করতে 🤗 datasets ব্যবহার করুন।
৩. ডেটাসেটের train
অংশ থেকে তৃতীয় উদাহরণটি পান এবং এটি অন্বেষণ করুন। এই উদাহরণে যে বৈশিষ্ট্যগুলি রয়েছে তা প্রদত্ত, আপনি এই ডেটাসেটটি কী
ধরণের অডিও কাজগুলির জন্য ব্যবহার করতে পারেন?
৪. এই উদাহরণের তরঙ্গরূপ এবং spectrogram প্লট করুন।
৫. 🤗 Hub এ যান, pre-trained models গুলো অন্বেষণ করুন এবং এমন একটি মডেল খুঁজুন যা আপনি আগে বেছে নেওয়া ভাষার জন্য automatic speech recognition এর জন্য ব্যবহার করা যেতে পারে। আপনি যে মডেলটি পেয়েছেন তার সাথে একটি সংশ্লিষ্ট pipeline তৈরী করুন এবং উদাহরণটি প্রতিলিপি করুন।
৬. উদাহরণে দেওয়া ট্রান্সক্রিপশনের সাথে pipeline থেকে আপনি যে ট্রান্সক্রিপশন পেয়েছেন তার তুলনা করুন।
আপনি যদি এই অনুশীলনের সাথে সমস্যায় পড়েন, তাহলে নির্দ্বিধায় একটি উদাহরণ সমাধান দেখুন। কিছু আকর্ষণীয় আবিষ্কার করলেন? একটি দুর্দান্ত মডেল পাওয়া গেছে? একটি সুন্দর স্পেকট্রোগ্রাম পেয়েছেন? টুইটারে আপনার কাজ এবং আবিষ্কারগুলি ভাগ করে নিন বিনা দ্বিধায়!
পরবর্তী অধ্যায়গুলিতে আপনি বিভিন্ন audio transformers architecture সম্পর্কে আরও শিখবেন এবং আপনার নিজের তৈরী মডেলগুলোকে train করবেন!
< > Update on GitHub