21/05/2026
এআইকে প্রম্পট কোন ভাষায় দেবেন, বাংলা না ইংরেজি?
এআই এখন শুধু প্রশ্নের উত্তর দেওয়ার টুল নয়। চ্যাটজিপিটির মত মডেল দিয়ে লেখা তৈরি হচ্ছে, মিডজার্নি দিয়ে ছবি, সুনো দিয়ে গান। প্রতিটি ক্ষেত্রেই ব্যবহারকারী এআইকে নির্দেশনা পাঠান ভিন্ন ভিন্ন ভাষায়, যাকে বলে প্রম্পট।
বাংলাদেশের ব্যবহারকারীরা এখানে এসেই থেমে যান। বাংলায় লিখব, না ইংরেজিতে? বাংলায় লিখলে চিন্তাটা স্বাভাবিক থাকে, কিন্তু ফলাফল ভাল হবে কি? ইংরেজিতে লিখলে হয়ত ফল ভাল আসবে, কিন্তু ভাষাটা যথেষ্ট দখলে না থাকলে নির্দেশনাই অস্পষ্ট হয়ে যায়। দ্বিধায় পড়ে অনেকেই এআইয়ের পরিপূর্ণ সুবিধা কাজে লাগাতে পারেন না।
দ্বন্দ্বটা কতটা বাস্তব, একটা উদাহরণে দেখা যাক। দুজন মানুষ একই ছবি চাইছেন, একজন বাংলাদেশী কৃষকের পোর্ট্রেট। প্রথমজন বাংলায় লিখলেন “একজন বাংলাদেশী বৃদ্ধ কৃষকের ছবি, মুখে বলিরেখা।” আরেকজন ইংরেজিতে লিখলেন “Photorealistic portrait of an elderly Bangladeshi farmer, weathered face, 85mm lens, golden hour lighting.”
ছবি দুটি এলো। বিষয়বস্তু একই, মান আলাদা। দ্বিতীয়টায় আলো পড়েছে নিখুঁতভাবে, চামড়ার টেক্সচার বোঝা যাচ্ছে, ব্যাকগ্রাউন্ড স্বাভাবিকভাবে ঝাপসা। প্রথমটা মাঝারি; বিষয়বস্তু ঠিক, কিন্তু পেশাদার মানের নয়।
এই পার্থক্য বাংলার দুর্বলতা নয়। মডেলগুলিকে যে ডেটা দিয়ে শেখানো হয়েছে, সেখানে ইংরেজির পাল্লাই ভারি। বিশাল সেই ডেটাভাণ্ডারে বাংলার অনুপাত তুলনামূলকভাবে অনেক কম। অর্থাৎ সমস্যাটা ভাষাগত নয়, ডেটাসেটের পক্ষপাত। সুতরাং এর সমাধান কেবল ইংরেজি ব্যবহারের ওপর নির্ভরশীলতা নয়। বরং কোন কাজে কোন ভাষা ভালো চলে, সেটা চিনে নিতে হবে।
কিছু কাজে বাংলা এগিয়ে, কিছুতে ইংরেজি, আর বেশিরভাগ বাস্তব কাজে দুটির মিশ্রণ, যাকে বলে হাইব্রিড প্রম্পট, সবচেয়ে ভাল ফল দেয়। কোথায় কোনটা কাজ করে এবং বাস্তবে দুই ভাষাকে কীভাবে কাজে লাগাবেন, এই লেখায় সেটাই দেখানো হবে।
টেক্সট মডেল বনাম ইমেজ মডেল
সব এআই একইভাবে বাংলা বোঝে না। টেক্সট-ভিত্তিক বড় ভাষা মডেল, যেমন ChatGPT, Claude, Gemini, আজকাল বাংলায় বেশ ভালই পারফর্ম করে। পুরো বাংলায় লিখেও মানসম্মত উত্তর, অনুবাদ, বিশ্লেষণ পাওয়া যায়। কিন্তু ইমেজ ও ভিডিও জেনারেশন মডেল, যেমন Stable Diffusion, Midjourney, Flux বাংলায় অনেক সীমাবদ্ধ।
কারণটা ট্রেনিং ডেটায়। স্টেবল ডিফিউশন তৈরি হয়েছে LAION-5B ডেটাসেটে, যেখানে প্রায় সাড়ে পাঁচ বিলিয়ন ছবি-ক্যাপশন জোড়া আছে। কিন্তু এই বিশাল তালিকায় বাংলা ক্যাপশন আছে মাত্র কয়েক হাজার, যা প্রয়োজনের তুলনায় খুবই কম। বাকি প্রায় পুরোটাই ইংরেজি ও অন্যান্য বহুল-প্রচলিত ভাষা।
বাংলা ভাষার মাধ্যমে ছবির খুঁটিনাটি চেনার মত সক্ষমতা এই মডেলের ভেতরে সেভাবে গড়ে ওঠেনি। টেক্সট মডেলে ইংরেজির প্রাধান্য থাকলেও বাংলা কনটেন্টের পরিমাণ অনেক বেশি এবং মডেলের ভেতরকার গঠনও ভাষা-স্থানান্তরে (Language Transfer) ভাল কাজ করে।
যেখানে বাংলা এগিয়ে
অনেকে ধরেই নেন এআইয়ের সাথে কাজ মানেই ইংরেজিতে কাজ। ভুল ধারণা। আইডিয়া বের করা, গল্প লেখা, কবিতার খসড়া তৈরি, লোকাল কনটেক্সট বোঝানো, বাংলাদেশী বাস্তবতা তুলে ধরা—এসব কাজে বাংলা ব্যবহার করলে ভাবনাটা স্বাভাবিক থাকে, ইনপুটও ভাল হয়। এখানে টেকনিক্যাল নিখুঁততা নয় বরং অর্থ, সুর ও প্রসঙ্গ বেশি গুরুত্বপূর্ণ।
ধরুন, কোনো গ্রামীণ চরিত্রের সংলাপ লিখতে চান। কিংবা ঈদের স্মৃতি নিয়ে একটা ছোটগল্পের প্লট। বাংলায় প্রম্পট দিলে মডেল সাংস্কৃতিক সূত্রগুলি ভালো ধরে। ইংরেজিতে একই জিনিস চাইলে অনুবাদ-গন্ধযুক্ত, অস্বাভাবিক ও কৃত্রিম একটা আউটপুট আসে।
ChatGPT বা Claude-এ সাধারণ আলোচনা, প্রশ্নোত্তর, সারাংশ তৈরি, ইমেইলের খসড়া—এসব কাজে বাংলা চালাতে কোনো সমস্যা নেই। কিন্তু ছবি বানাতে বসলেই পরিস্থিতি পাল্টে যায়।
ইমেজ তৈরিতে ইংরেজি কেন এগিয়ে
শুরুতে দেখানো সেই দুই কৃষকের ছবিতে ফিরে যাই। ইংরেজি প্রম্পটে যে শব্দগুলি জাদু দেখায়, যেমন “Photorealistic”, “HDR”, “skin pores”, “sharp focus”, “bokeh”, এগুলি শুধু বর্ণনা নয়। প্রতিটা শব্দ মডেলের ভেতরে নির্দিষ্ট ভিজ্যুয়াল প্যাটার্নের সাথে শক্তিশালী যোগসূত্র তৈরি করে।
প্রম্পট ইঞ্জিনিয়ারিংয়ের পরিভাষায় এদের বলা হয় উচ্চ-ওজনের টোকেন (High-weight Token), যেগুলি আউটপুটে জোরালো প্রভাব ফেলে।
এর সবচেয়ে বিখ্যাত উদাহরণ ছিল “trending on artstation” শব্দবন্ধটি। ২০২২-২৩ সালে যে কেউ মিডজার্নি বা স্টেবল ডিফিউশনে কোনো প্রম্পটের শেষে এই পাঁচটি শব্দ যোগ করলেই ছবির মান হঠাৎ বদলে যেত। একই বিষয়বস্তু, কিন্তু এই শব্দ যোগ করলে আউটপুট হঠাৎ অভিজ্ঞ ডিজিটাল আর্টিস্টের তৈরি আর্টওয়ার্কের মত দেখাত।
কারণ ArtStation নামের ওয়েবসাইটটি পেশাদার ডিজিটাল শিল্পীদের প্ল্যাটফর্ম এবং সেখান থেকে আসা ছবিগুলি ট্রেনিং ডেটায় এই ক্যাপশনের সাথে যুক্ত ছিল। এই একটা শব্দবন্ধ ইংরেজি প্রম্পটের শক্তি আর ট্রেনিং ডেটার পক্ষপাত, দুটিই একসাথে দেখিয়ে দেয়।
এই শব্দগুলি বাংলায় অনুবাদ করলে অর্থ ঠিক থাকে, কিন্তু প্রভাব কমে যায়। মডেল আংশিকভাবে বোঝে। কিছু বাদ দেয়। কম নির্ভুলভাবে তৈরি করে। আউটপুটের উপর নিয়ন্ত্রণ হারিয়ে যায়।
লাইটিং, ক্যামেরা অ্যাঙ্গেল, ফোকাস, টেক্সচার, যেখানে সূক্ষ্ম নিয়ন্ত্রণ দরকার, সেখানে আজকের বাস্তবতায় ইংরেজি ছাড়া উপায় নেই। ইমেজ মডেলে ইংরেজির প্রয়োজনীয়তা অবশ্য এখানেই শেষ নয়। আরেকটা বড় জায়গা আছে যেখানে বাংলা কাজই করে না।
নেগেটিভ প্রম্পট
সেই জায়গাটার নাম নেগেটিভ প্রম্পট, অর্থাৎ কী চান না, সেটা বলা। ইমেজ জেনারেশনে শুধু কী চান বললেই হয় না। কী এড়াতে চান, সেটাও বলতে হয়। যেমন “blurry, low quality, extra fingers, watermark, deformed hands, bad anatomy”; এই শব্দগুলি আলাদা ফিল্ডে দিলে মডেল ত্রুটিগুলি এড়িয়ে চলার চেষ্টা করে।
এটা প্রায় পুরাটাই ইংরেজিতে কাজ করে। কারণ ক্যাপশন ডেটায় এই গুণগত দুর্বলতা বোঝানো শব্দগুলি ইংরেজিতেই ট্যাগ করা ছিল। বাংলায় “ঝাপসা” বা “খারাপ হাত” লিখলে মডেল কার্যকরভাবে ফিল্টার করতে পারে না।
প্রম্পটের কাঠামো—কিওয়ার্ড বনাম বাক্য
ভাষা ছাড়াও প্রম্পটের গঠন গুরুত্বপূর্ণ। এখানেও টেক্সট ও ইমেজ মডেলের মধ্যে পার্থক্য আছে। ইমেজ মডেল সাধারণত কমা দিয়ে আলাদা করা কিওয়ার্ড লিস্ট (Comma-separated Keywords) ভাল বোঝে। যেমন “young woman, red saree, monsoon rain, cinematic lighting, shallow depth of field”।
টেক্সট মডেল চায় পূর্ণ বাক্য আর প্রাকৃতিক ভাষায় লেখা নির্দেশনা। যেমন: “একজন তরুণীর ছবি বর্ণনা করুন যিনি বর্ষার মধ্যে লাল শাড়ি পরে দাঁড়িয়ে আছেন।” বিষয়বস্তু এক, কিন্তু কাঠামো দুই রকম।
মিডজার্নির মত টুলে আবার কিছু ভাষা-নিরপেক্ষ কমান্ড-প্যারামিটার আছে, যেমন --ar 16:9 (Aspect Ratio), --s 750 (Stylize Value), --c 50 (Chaos)। বাংলা বা ইংরেজি যেকোনো প্রম্পটের শেষে যোগ করা যায়। সম্পূর্ণ সিনট্যাক্সভিত্তিক।
এই কমান্ড দেওয়ার পদ্ধতির পেছনে মিডজার্নির শুরুর ইতিহাস কাজ করছে; ২০২২ সালে এটি চালু হয়েছিল একটি Discord সার্ভার হিসাবে, কোনো অ্যাপ বা ওয়েবসাইট-ইন্টারফেস ছিল না। ব্যবহারকারীরা চ্যাট রুমে কমান্ড টাইপ করে ছবি আঁকাতেন এবং সেই সিনট্যাক্স আজও টুলটির স্বাক্ষর হয়ে আছে।
ভাষা নির্বাচনের পাশে আরেকটা হিসাব আছে, যেটা অনেকের চোখ এড়িয়ে যায়—খরচ।
টোকেন: খরচের একটা লুকানো দিক
যারা এপিআই (API) দিয়ে কাজ করেন, কিংবা সীমিত ক্রেডিটে চলেন, তাদের জন্য এটা মাথায় রাখা জরুরি। এআই মডেল টেক্সটকে টোকেন নামক ছোট ছোট অংশে ভেঙে প্রসেস করে। খরচ ও সীমা, সব হিসাব এই টোকেন সংখ্যার উপর। বাংলার মত অ-ল্যাটিন লিপি টোকেনাইজেশনে অনেক বেশি জায়গা নেয়।
ইংরেজিতে “The weather is nice today” বাক্যটি প্রায় ৬ টোকেন। বাংলায় এর সমার্থক “আজকের আবহাওয়া চমৎকার” বাক্যে লাগে প্রায় ২০-২৫ টোকেন। অর্থাৎ একই কাজ বাংলায় করলে খরচ তিন থেকে চার গুণ বেশি, আর কনটেক্সট উইন্ডোও দ্রুত ভরে যায়।
অক্সফোর্ডের গবেষক আলেকজান্দার পেট্রভ ও তার সহকর্মীরা ২০২৩ সালে এই সমস্যাটিকে নাম দিয়েছেন “language tax” বা ভাষা-কর। তাদের গবেষণায় দেখা গেছে, একই অর্থ প্রকাশ করতে ইংরেজির তুলনায় কিছু ভাষায় ১৫ গুণ পর্যন্ত বেশি টোকেন লাগে। মিয়ানমারের ভাষায় এই অনুপাত সর্বাধিক। বাংলার অবস্থা মাঝামাঝি, কিন্তু পার্থক্যটা তবু যথেষ্ট বড়।
এর অর্থ পরিষ্কার: যে ভাষায় কথা বলেন, প্রযুক্তির খরচও সে অনুপাতে দিতে হয়। চ্যাট ইন্টারফেসে সাবস্ক্রিপশন দিয়ে কাজ করলে এটা নিয়ে মাথা ঘামানোর দরকার নেই। কিন্তু ডেভেলপার বা বাল্ক প্রসেসিংয়ের ক্ষেত্রে এই পার্থক্য বড় প্রভাব ফেলে। এত হিসাবের পর প্রশ্ন ওঠে: তাহলে বাস্তবে কী করবেন?
হাইব্রিড প্রম্পট: সবচেয়ে কার্যকর পদ্ধতি
উত্তর সরাসরি বলি। দুই ভাষার মিশ্র ব্যবহারই সবচেয়ে যৌক্তিক। অনেকে আগে বাংলায় ভাবেন, তারপর ইংরেজিতে প্রম্পট লেখেন। আবার কেউ সরাসরি হাইব্রিড প্রম্পটে যান—বিষয়বস্তু বাংলায়, টেকনিক্যাল নির্দেশনা ইংরেজিতে।
শুরুর সেই কৃষকের উদাহরণে ফিরি। শুধু বাংলায় বললে যে মাঝারি ফলাফল আসে, হাইব্রিড করলে সেটা পাল্টে যায়:
“একজন বাংলাদেশি বৃদ্ধ কৃষকের মুখ, মাথায় গামছা, পেছনে ধানের ক্ষেত—photorealistic portrait, soft natural light, golden hour, shallow depth of field, 85mm lens, ultra-detailed skin texture, cinematic composition --ar 3:4 --s 250”
বিষয়বস্তু ও সাংস্কৃতিক বিবরণ বাংলায়, ভিজ্যুয়াল কন্ট্রোল ইংরেজিতে, কমান্ড-প্যারামিটার সিনট্যাক্সে। মডেল তিন স্তরে আলাদাভাবে প্রসেস করে। কী আঁকতে হবে, কীভাবে আঁকতে হবে, কোন আকারে দিতে হবে, তিনটাই স্পষ্ট। ফলাফল হয় অত্যন্ত উচ্চমানের।
টেক্সট মডেলেও একই কৌশল কাজ করে। যেমন: “নিচের প্যারাগ্রাফটি academic tone-এ rewrite করুন, avoid passive voice”। কাজের নির্দেশনা বাংলায়, স্টাইলের প্যারামিটার ইংরেজিতে।
ট্রান্সলেশন-ব্রিজ
হাইব্রিড কঠিন মনে হলে আরেকটা সহজ পথ আছে, যাকে বলা যায় ট্রান্সলেশন-ব্রিজ। প্রথমে বাংলায় পুরা প্রম্পট লিখুন বিস্তারিতভাবে। তারপর সেটাই এআইকে দিয়ে ইংরেজিতে অনুবাদ করান। অনূদিত প্রম্পট ইমেজ মডেলে পেস্ট করেন। বাংলায় ভাবার সুবিধা আর ইংরেজি প্রম্পটের নির্ভুলতা, দুটিই একসাথে পাওয়া যায়।
যারা ইংরেজি প্রম্পটিং এখনও শিখছেন, তাদের জন্য এটা ভাল সেতু। তবে একটা সতর্কতা আছে: এআইয়ের অনুবাদ সবসময় সঠিক টেকনিক্যাল পরিভাষা ব্যবহার করে না। অনূদিত প্রম্পটটা একবার চোখ বুলিয়ে ঠিক করে নেওয়া দরকার।
ভয়েস ও অডিও মডেল
এতক্ষণ কথা হল টেক্সট আর ইমেজ নিয়ে। কিন্তু ভয়েস ও মিউজিক জেনারেশন টুলের ব্যবহারও বাড়ছে এবং এখানে ভাষার সমস্যা আরও তীব্র। ElevenLabs দিয়ে ভয়েসওভার, Suno বা Udio দিয়ে গান, এসব এখন সহজলভ্য। কিন্তু বাংলা ভাষার ক্ষেত্রে এই টুলগুলির কার্যকারিতা এখনও প্রাথমিক পর্যায়ে।
ইলেভেন ল্যাবস বাংলা টেক্সট উচ্চারণ করতে পারে, কিন্তু উচ্চারণ অস্বাভাবিক। আবেগের সঠিক বহিঃপ্রকাশের দিক থেকে এটি ইংরেজির মানের চেয়ে অনেক পিছিয়ে। সুনোতে বাংলা গানের লিরিক্স দিলে মডেল চেষ্টা করে, কিন্তু উচ্চারণ-সুরের মিল প্রায়ই দুর্বল।
এটা শুধু প্রযুক্তিগত সীমাবদ্ধতা নয়, এটি মূলত বিশ্ববাজারে কোন ভাষার চাহিদা কত বেশি, তার ওপর নির্ভর করে। কোম্পানিগুলি যে ভাষা থেকে বেশি ব্যবহারকারী আসে, সেদিকেই আগে মনোযোগ দেয়। বাংলাভাষীরা এই টুলগুলি যত বেশি ব্যবহার করবেন, ফিডব্যাক যত বেশি যাবে, বাংলা সাপোর্ট তত দ্রুত উন্নত হবে। এই কারণেই বাংলার বর্তমান অবস্থা স্থায়ী নয়, বরং পরিবর্তনশীল।
ভবিষ্যৎ
মডেলগুলি প্রতি কয়েক মাসে উন্নত হচ্ছে। বহুভাষিক ট্রেনিং বাড়ছে। বাংলার সাপোর্টও ধীরে ধীরে ভাল হচ্ছে। Google, Meta, OpenAI দক্ষিণ এশীয় ভাষার উপর আলাদা মনোযোগ দিচ্ছে। বাংলাদেশ-ভারতের গবেষকরাও ওপেন-সোর্স বাংলা মডেল বানাচ্ছেন।
আগামী কয়েক বছরে বাংলা প্রম্পটের কার্যকারিতা আজকের চেয়ে অনেক ভাল হবে, বিশেষ করে টেক্সট মডেলে। ইমেজ মডেলে পরিবর্তন আসবে, তবে বাংলা ও ইংরেজি ক্যাপশন ডেটার ভারসাম্য ঠিক হতে সময় লাগবে।
তবে এই উন্নতি আপনাআপনি ঘটবে না। বাংলাভাষীরা এআই টুল যত বেশি ব্যবহার করবেন, যত বেশি ফিডব্যাক দেবেন, বাংলা কনটেন্ট যত বেশি অনলাইনে আসবে, ট্রেনিং ডেটায় বাংলার প্রতিনিধিত্ব তত বাড়বে। প্রযুক্তি বাজারের চাহিদায় এগোয়। আজকের এই কৌশলগুলিই শেষ কথা নয়, প্রযুক্তির পরিবর্তনের সাথে এগুলিও বদলে যাবে।
শুরুর সেই দুজন মানুষের গল্পে ফিরি। তাদের চাওয়া এক, ভাষা আলাদা, ফলাফলও আলাদা। দ্বিতীয়জন কোনো জাদু জানে না। সে শুধু জানে কোন ভাষা কখন কাজে লাগে।
একটা সহজ থাম্ব রুল মনে রাখা যায়: যেখানে অর্থ ও প্রসঙ্গ গুরুত্বপূর্ণ, সেখানে বাংলা। যেখানে টেকনিক্যাল নিয়ন্ত্রণ দরকার, সেখানে ইংরেজি—দুটিই লাগলে হাইব্রিড।
সংগ্রহ
আইএলএ এডুকেয়ার
সিলেট