Audio Course documentation

হাতে-করি অনুশীলন

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

হাতে-করি অনুশীলন

এই অনুশীলনটি গ্রেড করা হয়নি এবং কোর্সের বাকি অংশ জুড়ে আপনি যে টুলস এবং লাইব্রেরিগুলি ব্যবহার করবেন তার সাথে পরিচিত হতে সাহায্য করার উদ্দেশ্যে করা হয়েছে। আপনি যদি ইতিমধ্যেই Google Colab, 🤗 datasets, librosa এবং 🤗 transformers ব্যবহারে অভিজ্ঞ হয়ে থাকেন, তাহলে আপনি এই অনুশীলনটি এড়িয়ে যেতে পারেন।

১. একটি Google Colab নোটবুক তৈরি করুন।

২. স্ট্রিমিং মোডে আপনার পছন্দের ভাষায় facebook/voxpopuli ডেটাসেট এর train স্প্লিটটি লোড করতে 🤗 datasets ব্যবহার করুন।

৩. ডেটাসেটের train অংশ থেকে তৃতীয় উদাহরণটি পান এবং এটি অন্বেষণ করুন। এই উদাহরণে যে বৈশিষ্ট্যগুলি রয়েছে তা প্রদত্ত, আপনি এই ডেটাসেটটি কী ধরণের অডিও কাজগুলির জন্য ব্যবহার করতে পারেন?

৪. এই উদাহরণের তরঙ্গরূপ এবং spectrogram প্লট করুন।

৫. 🤗 Hub এ যান, pre-trained models গুলো অন্বেষণ করুন এবং এমন একটি মডেল খুঁজুন যা আপনি আগে বেছে নেওয়া ভাষার জন্য automatic speech recognition এর জন্য ব্যবহার করা যেতে পারে। আপনি যে মডেলটি পেয়েছেন তার সাথে একটি সংশ্লিষ্ট pipeline তৈরী করুন এবং উদাহরণটি প্রতিলিপি করুন।

৬. উদাহরণে দেওয়া ট্রান্সক্রিপশনের সাথে pipeline থেকে আপনি যে ট্রান্সক্রিপশন পেয়েছেন তার তুলনা করুন।

আপনি যদি এই অনুশীলনের সাথে সমস্যায় পড়েন, তাহলে নির্দ্বিধায় একটি উদাহরণ সমাধান দেখুন। কিছু আকর্ষণীয় আবিষ্কার করলেন? একটি দুর্দান্ত মডেল পাওয়া গেছে? একটি সুন্দর স্পেকট্রোগ্রাম পেয়েছেন? টুইটারে আপনার কাজ এবং আবিষ্কারগুলি ভাগ করে নিন বিনা দ্বিধায়!

পরবর্তী অধ্যায়গুলিতে আপনি বিভিন্ন audio transformers architecture সম্পর্কে আরও শিখবেন এবং আপনার নিজের তৈরী মডেলগুলোকে train করবেন!

< > Update on GitHub