আপনি কি কখনও ভেবেছেন, কিভাবে কম্পিউটার সহজেই মানুষের মত কথা বলতে পারে? “বুদ্ধিমত্তা শুধু মানুষের নয়,” কেউ বলে। ছোটবেলার এক দিন, আমি আমার বাবার সাথে গল্প করতাম যে কম্পিউটারও কথা বলতে পারে।
কিন্তু আমরা সবাই জানি, অনেক সময় কম্পিউটার আমাদের ভুল উত্তর দেয়। সমস্যা হলো – সঠিক তথ্য পাওয়ার অভাব। এই আর্টিকেলে আমরা দেখব, কিভাবে DeepSeek LLM এই সমস্যা মোকাবেলা করছে।
সংক্ষিপ্তভাবে, এই মডেলটি বড় ডেটাসেট থেকে শিখে, কোডিং, গাণিতিক সমস্যা ও ভাষাগত প্রশ্নে চমৎকার ফলাফল দিচ্ছে।
DeepSeek LLM হল একটি খোলা উৎস ভাষা মডেল। এটি দুটি সংস্করণে পাওয়া যায় – 7B এবং 67B। এই সংখ্যাগুলো নির্দেশ করে মডেলের পরিমাপ। 7B মডেলে আছে 7 বিলিয়ন প্যারামিটার এবং 67B মডেলে আছে 67 বিলিয়ন প্যারামিটার।
এদের প্রশিক্ষণ ডেটা হিসেবে ইংরেজি ও চীনা ভাষার ২ ট্রিলিয়ন শব্দ ব্যবহার করা হয়েছে। গবেষকদের সুবিধার জন্য, মডেলটি Base এবং Chat উভয় সংস্করণে মুক্তভাবে প্রকাশ করা হয়েছে।
DeepSeek LLM 67B Base মডেল, Llama2 70B Base-এর তুলনায় অনেক ক্ষেত্রে ভালো ফলাফল দেখিয়েছে। এটি যুক্তি-বিজ্ঞান, কোড লেখা, গাণিতিক সমস্যা ও চীনা ভাষা বোঝাপড়ায় উন্নত। এই মডেলটি আমাদের দেখিয়েছে, কম ডেটা থেকে কিভাবে ভালো ফল পাওয়া যায়।
DeepSeek LLM 67B Chat মডেল কোডিংয়ে চমৎকার কাজ করেছে। HumanEval পরীক্ষায় এর Pass@1 স্কোর ছিল 73.78। গাণিতিক পরীক্ষায় GSM8K (0-shot) এ 84.1 এবং Math (0-shot) এ 32.6 নম্বর পেয়েছে। এমনকি হাঙ্গেরিয়ান হাইস্কুলের পরীক্ষা থেকেও ভালো ফলাফল এসেছে, যা মডেলের বিস্তৃত দক্ষতার পরিচায়ক।
মডেলের চীনা ভাষার পরীক্ষায়, GPT-3.5-এর তুলনায় DeepSeek LLM 67B Chat অনেক বেশি দক্ষতা দেখিয়েছে। এটি দেখায় কিভাবে ভাষার বিভিন্ন দিক ব্যাখ্যা করে মডেলটি আরও ব্যাপকভাবে কাজ করতে পারে।
DeepSeek LLM এর সব সংস্করণ HuggingFace প্ল্যাটফর্মে পাওয়া যায়। এখানে মডেলগুলোর সিরিজের দৈর্ঘ্য 4096। নিচে দেওয়া হলো:
এই প্ল্যাটফর্ম থেকে ডাউনলোড করে আপনি সহজেই মডেলটি ব্যবহার করতে পারবেন।
গবেষণা পুনরায় চালানোর জন্য ও প্রশিক্ষণের প্রক্রিয়া বোঝার জন্য, DeepSeek LLM এর মধ্যবর্তী ধাপগুলির চেকপয়েন্টও প্রকাশ করা হয়েছে। এই ফাইলগুলো AWS S3 তে সংরক্ষিত আছে।
নিম্নলিখিত কমান্ডগুলো ব্যবহার করে আপনি চেকপয়েন্ট ডাউনলোড করতে পারবেন:
DeepSeek-LLM-7B-Base এর জন্য:
bash
CopyEdit
aws s3 cp s3://deepseek-ai/DeepSeek-LLM/DeepSeek-LLM-7B-Base <local_path> –recursive –request-payer
DeepSeek-LLM-67B-Base এর জন্য:
bash
CopyEdit
aws s3 cp s3://deepseek-ai/DeepSeek-LLM/DeepSeek-LLM-67B-Base <local_path> –recursive –request-payer
DeepSeek LLM মডেলের বিভিন্ন মান নির্ধারণে LLaMA-2 মডেলের সাথে তুলনা করা হয়েছে। নিচের টেবিলে বিভিন্ন পরীক্ষার ফলাফল দেখানো হয়েছে:
মডেল | Hella | Swag | TriviaQA | QA (0-shot / 5-shot) | MMLU | GSM8K | HumanEval | BBH | |||
LLaMA-2 7B | 75.6 | 63.8 | 45.8 | 15.5 / 14.6 | 38.5 | 33.9 | 32.6 | 21.5 | |||
LLaMA-2 70B | 84.0 | 79.5 | 69.0 | 58.4 / 28.7 | 62.9 | 51.4 | 53.1 | 50.2 | |||
DeepSeek LLM 7B Base | 75.4 | 59.7 | 48.2 | 17.4 / 26.2 | 39.5 | 45.0 | 47.2 | 78.0 | |||
DeepSeek LLM 67B Base | 84.0 | 78.9 | 71.3 | 63.4 / 42.7 | 68.7 | 66.1 | 70.8 | 87.6 |
(উল্লেখ্য: ChineseQA একটি অভ্যন্তরীণ পরীক্ষার ফলাফল।)
DeepSeek LLM Chat মডেল নতুন প্রশ্নপত্রে পরীক্ষিত হয়েছে। বিশেষ করে হাঙ্গেরিয়ান হাইস্কুল পরীক্ষা এবং নির্দেশনা অনুসরণের পরীক্ষা।
LeetCode উইকলি কনটেস্ট থেকে প্রায় ১২৬টি সমস্যা সংগ্রহ করে, মডেলের কোডিং দক্ষতা পরীক্ষা করা হয়েছে। প্রম্পট অনুযায়ী মডেল যখন সব টেস্ট কেস পার করে, তখন সেটিকে সফল বলে গণ্য করা হয়েছে।
DeepSeek LLM এর মান নির্ধারণে নিম্নলিখিত ফলাফলগুলো পাওয়া গেছে:
মডেল | TriviaQA | MMLU | GSM8K | HumanEval | BBH | CEval | CMMLU | ChineseQA |
DeepSeek LLM 7B Base | 59.7 | 48.2 | 17.4 | 26.2 | 39.5 | 45.0 | 47.2 | 78.0 |
DeepSeek LLM 67B Base | 78.9 | 71.3 | 63.4 | 42.7 | 68.7 | 66.1 | 70.8 | 87.6 |
DeepSeek LLM 7B Chat | 57.9 | 49.4 | 62.6 | 48.2 | 42.3 | 47.0 | 49.7 | 75.0 |
DeepSeek LLM 67B Chat | 81.5 | 71.1 | 84.1 | 73.8 | 71.7 | 65.2 | 67.8 | 85.1 |
এখানে, বিভিন্ন পরীক্ষার সেটিং (যেমন 0-shot, 5-shot) উল্লেখ করা হয়েছে।
কিছু পরীক্ষায়, একাধিক বিকল্প প্রশ্ন যুক্ত করে ফলাফল আরও উন্নত করা হয়েছে। চীনা ও ইংরেজি দুই ভাষায় এর প্রভাব স্পষ্ট।
কিন্তু, অতিরিক্ত প্রশ্ন ডেটা যোগ করলে মডেলের অতিরিক্ত ফলাফল পাওয়া যায়, তাই পূর্বের প্রশিক্ষণের সময় একে ব্যবহার করা হয়নি।
DeepSeek LLM এর প্রশিক্ষণের জন্য বিভিন্ন ধরণের ডেটা ব্যবহার করা হয়েছে – ইন্টারনেট থেকে নেওয়া লেখা, গাণিতিক সমস্যা, কোড, বই এবং স্ব-সংগ্রহ করা ডেটা। ব্যক্তিগত তথ্য ও কপিরাইট সংক্রান্ত বিষয়গুলো খুব খেয়াল করা হয়েছে।
একটি ব্যাচ প্রসেসিং সিস্টেম, নাম “cc_cleaner”, ব্যবহার করা হয়েছে ডেটা পরিশোধনের জন্য। এতে নির্দিষ্ট নিয়ম মেনে ডেটা সংগ্রহ করা হয়েছে। কিছু র্যান্ডম পদ্ধতি ব্যবহার করে ডেটার বৈচিত্র্য বাড়ানো হয়েছে।
ডেটা থেকে অপ্রয়োজনীয় অংশ বাদ দেওয়ার জন্য কিছু নিয়ম ব্যবহার করা হয়েছে। MinhashLSH পদ্ধতি ব্যবহার করে ডুপ্লিকেট ডেটা মুছে ফেলা হয়েছে। এতে করে প্রতিটি ডেটা অংশ অল্পটুকু হলেও মূল্যবান তথ্য হিসেবে রয়ে যায়।
DeepSeek LLM মডেলটি LLaMA এর অটো-রিগ্রেসিভ ট্রান্সফর্মার ডিকোডার আর্কিটেকচার ব্যবহার করে তৈরি।
প্রশিক্ষণের সময় নিম্নলিখিত সেটিংস ব্যবহার করা হয়েছে:
প্রশিক্ষণের সময় মডেলের ক্ষতির গ্রাফ ও বিভিন্ন পরীক্ষার ফলাফলও প্রকাশ করা হয়েছে। এতে করে গবেষকরা বুঝতে পারছেন মডেলটি কিভাবে শিখছে।
প্রথমেই আপনার কম্পিউটারে Python (≥ 3.8) থাকতে হবে। এরপর নিচের কমান্ডটি চালান:
bash
CopyEdit
pip install -r requirements.txt
নিচের কোডটি ব্যবহার করে আপনি মডেল লোড, টোকেনাইজেশন ও টেক্সট জেনারেট করতে পারেন:
python
CopyEdit
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
model_name = “deepseek-ai/deepseek-llm-67b-base”
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map=”auto”)
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id
text = “একটি অ্যাটেনশন ফাংশন কি?”
inputs = tokenizer(text, return_tensors=”pt”)
outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
চ্যাট মডেল ব্যবহার করতে নিচের কোডটি দেখুন:
python
CopyEdit
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
model_name = “deepseek-ai/deepseek-llm-67b-chat”
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map=”auto”)
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id
messages = [{“role”: “user”, “content”: “আপনি কে?”}]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors=”pt”)
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)
vLLM ব্যবহার করে টেক্সট জেনারেশনের জন্য, টেনসর পারালেলিজম ও স্যাম্পলিং প্যারামিটার সেট করুন:
python
CopyEdit
from vllm import LLM, SamplingParams
tp_size = 4 # টেনসর পারালেলিজম
sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=100)
model_name = “deepseek-ai/deepseek-llm-67b-base”
llm = LLM(model=model_name, trust_remote_code=True, gpu_memory_utilization=0.9, tensor_parallel_size=tp_size)
prompts = [
“যদি সবাই একে অপরকে ভালোবাসে,”,
“গবেষণা আরও বিস্তৃত হওয়ার প্রয়োজন,”,
“আমাদের সিদ্ধান্ত নিতে হবে যে লেবেলটি ঠিক কি”
]
outputs = llm.generate(prompts, sampling_params)
generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)
vLLM দিয়ে চ্যাট জেনারেশনের জন্য:
python
CopyEdit
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
tp_size = 4 # টেনসর পারালেলিজম
sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=100)
model_name = “deepseek-ai/deepseek-llm-67b-chat”
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(model=model_name, trust_remote_code=True, gpu_memory_utilization=0.9, tensor_parallel_size=tp_size)
messages_list = [
[{“role”: “user”, “content”: “আপনি কে?”}],
[{“role”: “user”, “content”: “আপনি কি করতে পারেন?”}],
[{“role”: “user”, “content”: “ট্রান্সফর্মার সম্পর্কে সংক্ষেপে বলুন।”}],
]
prompt_token_ids = [tokenizer.apply_chat_template(messages, add_generation_prompt=True) for messages in messages_list]
sampling_params.stop = [tokenizer.eos_token]
outputs = llm.generate(prompt_token_ids=prompt_token_ids, sampling_params=sampling_params)
generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)
DeepSeek LLM মডেল HuggingFace Tokenizer ব্যবহার করে বাইট-লেভেল BPE পদ্ধতি প্রয়োগ করে। এই পদ্ধতি সহজেই কোড কনভার্শনের কাজ করে। SentencePiece Tokenizer এ রূপান্তর করার সরাসরি কোনো উপায় নেই।
প্রচলিত quantization প্রকল্পে HuggingFace pre-tokenizers এর সমর্থনের জন্য একটি পিআর জমা দেওয়া হয়েছে। নিচের ধাপগুলো মেনে GGUF মডেল তৈরি করতে পারেন:
bash
CopyEdit
git clone https://github.com/DOGEwbx/llama.cpp.git
cd llama.cpp
git checkout regex_gpt2_preprocess
make
python3 -m pip install -r requirements.txt
python convert-hf-to-gguf.py <MODEL_PATH> –outfile <GGUF_PATH> –model-name deepseekllm
./quantize <GGUF_PATH> <OUTPUT_PATH> q4_0
./main -m <OUTPUT_PATH> -n 128 -p <PROMPT>
exllamav2 এখন HuggingFace Tokenizer এর সাথে কাজ করছে। সর্বশেষ ভার্সনটি ব্যবহার করে দেখুন।
DeepSeek LLM মডেলের GPU মেমোরি ব্যবহারের তথ্য নিচের মতো:
DeepSeek LLM 7B (NVIDIA A100-PCIE-40GB):
ব্যাচ সাইজ | 512 | 1024 | 2048 | 4096 |
1 | 13.29 GB | 13.63 GB | 14.47 GB | 16.37 GB / 21.25 GB |
2 | 13.63 GB | 14.39 GB | 15.98 GB | 19.82 GB / 29.59 GB |
4 | 14.47 GB | 15.82 GB | 19.04 GB | OOM |
8 | 15.99 GB | 18.71 GB | 25.14 GB | OOM |
16 | 19.06 GB | 24.52 GB | 37.28 GB | OOM |
DeepSeek LLM 67B (৮টি NVIDIA A100-PCIE-40GB):
ব্যাচ সাইজ | 512 | 1024 | 2048 | 4096 |
1 | 16.92 GB | 17.11 GB | 17.66 GB | 20.01 GB / 33.23 GB |
2 | 17.04 GB | 17.28 GB | 18.55 GB | OOM |
4 | 17.20 GB | 17.80 GB | 21.28 GB | OOM |
8 | 17.59 GB | 19.25 GB | 25.69 GB | OOM |
16 | 18.17 GB | 21.69 GB | 34.54 GB | OOM |
(OOM: Memory overflow. তথ্য থেকে বোঝা যাচ্ছে মডেলের স্কেল অনুযায়ী মেমোরির ব্যবহার বাড়ছে।)
DeepSeek LLM অত্যন্ত শক্তিশালী হলেও কিছু সীমাবদ্ধতা আছে:
DeepSeek LLM মডেল MIT লাইসেন্সের অধীনে প্রকাশিত। বাণিজ্যিক ব্যবহারের ক্ষেত্রেও এই মডেল ব্যবহার করা যাবে, তবে মডেল ব্যবহারের কিছু শর্তাবলী মেনে চলতে হবে। বিস্তারিত শর্তাবলী মডেল রেপোজিটরিতে পাওয়া যাবে।
গবেষণাপত্রের রেফারেন্স নিচে দেওয়া হলো:
bibtex
CopyEdit
@article{deepseek-llm,
author = {DeepSeek-AI},
title = {DeepSeek LLM: Scaling Open-Source Language Models with Longtermism},
journal = {arXiv preprint arXiv:2401.02954},
year = {2024},
url = {https://github.com/deepseek-ai/DeepSeek-LLM}
}
আরও বিশদ জানতে, এই রেফারেন্সটি পড়ুন।
যদি আপনার কোন প্রশ্ন থাকে বা সহায়তার প্রয়োজন হয়, তাহলে নিচের ইমেল ঠিকানায় যোগাযোগ করুন:
service@deepseek.com
এছাড়াও, GitHub ইস্যু করে প্রশ্ন করতে পারেন।
আমি ব্যক্তিগতভাবে DeepSeek LLM নিয়ে কাজ করার সময় দেখেছি, এই মডেলটি অনেক ক্ষেত্রে সত্যিই চমৎকার। ছোটবেলা থেকেই আমি কম্পিউটার ও কোডিংয়ে আগ্রহী ছিলাম।
কিন্তু কখনো ভাবিনি, এমন একটি মডেল তৈরি হবে যা সহজ ভাষায় মানুষের মতো কথা বলতে পারবে।
এটি আমার জীবনে এক নতুন অধ্যায়ের সূচনা, যেমন অজানা কোনো দ্বারে প্রবেশ করা। কিছু সময় আমি হাসি জ্ঞাপিত হই যখন মডেলটি এমন একটি প্রশ্নের উত্তর দেয় যা আমি ভাবতাম কেবল মানুষই দিতে পারে।
এই অভিজ্ঞতা আমাকে শিক্ষা দিয়েছে – প্রযুক্তি এবং মানবিকতা একসাথে কাজ করলে কতটা মজার ও ফলপ্রসূ হতে পারে!
এই আর্টিকেলে উল্লেখিত তথ্য ছাড়াও, আপনি আরো জানতে পারেন:
এই লিঙ্কগুলো আপনাকে আরও গভীরভাবে গবেষণা করতে সহায়তা করবে।
DeepSeek LLM হল একটি শক্তিশালী, খোলা উৎস ভাষা মডেল যা 7B ও 67B সংস্করণে উপলব্ধ। প্রশিক্ষণের জন্য ২ ট্রিলিয়ন শব্দ ব্যবহার করা হয়েছে। মডেলটি কোডিং, গাণিতিক সমস্যা ও ভাষাগত বোঝাপড়ায় অসাধারণ ফলাফল দেখিয়েছে।
গবেষণার জন্য এবং ব্যবহারিক প্রয়োগে এটি অত্যন্ত কার্যকরী। আপনি যদি এই প্রযুক্তির সাথে পরিচিত হতে চান, তাহলে এই মডেলটি ব্যবহার করে দেখুন।
আপনার মতামত কি? মন্তব্য করুন এবং আরও পড়ুন।
DeepSeek LLM নিয়ে এই আলোচনা আমাদের দেখিয়েছে, কিভাবে নতুন প্রজন্মের মডেল আমাদের দৈনন্দিন জীবনে সাহায্য করতে পারে।
মডেলের প্রশিক্ষণ, ডাউনলোড থেকে শুরু করে মূল্যায়ন, প্রাক-প্রশিক্ষণ প্রক্রিয়া, ও দ্রুত শুরু গাইড সবকিছুই একসাথে একটি বিস্তৃত দৃষ্টিভঙ্গি প্রদান করে।
আপনার যদি কোন প্রশ্ন থাকে বা অভিজ্ঞতা শেয়ার করতে চান, তাহলে মন্তব্য করুন।
এই আর্টিকেলটি পড়ে আপনার যদি DeepSeek LLM সম্পর্কে আরও জানতে ইচ্ছা হয়, তাহলে আমাদের অন্যান্য আর্টিকেল দেখুন। আপনার প্রতিক্রিয়া ও পরামর্শ আমাদের জন্য গুরুত্বপূর্ণ। আজই DeepSeek LLM ব্যবহার করে দেখুন এবং আপনার অভিজ্ঞতা শেয়ার করুন।
এই আর্টিকেলটি প্রস্তুত করতে আমি নিজেও অনেক শিখেছি। প্রযুক্তি আমাদের প্রতিদিনের জীবনে সহজতা এনে দেয়। এ ধরনের কাজের মাধ্যমে আমরা জানি, ভবিষ্যতে কী কী সম্ভব হতে পারে।
আপনারা কি মনে করেন, ভবিষ্যতে আরও কোন কোন ক্ষেত্রে এই ধরনের মডেল কাজে লাগতে পারে? আপনার মন্তব্যের অপেক্ষায় থাকলাম।
(HSC GPA Calculator BD) হলো Higher Secondary School Certificate (HSC) ফলাফলের জিপিএ হিসাবের সহজ উপায়। এটি…
(SSC GPA Calculator) দিয়ে আপনি খুব সহজে SSC রেজাল্টের গ্রেড পয়েন্ট বের করতে পারবেন। এই…
বাংলাদেশে শিক্ষার্থীদের জন্য CGPA থেকে শতকরা জানা খুব দরকার। আমাদের CGPA to Percentage Calculator Out…
Percentage Calculator Formula শতকরার সহজ সূত্র হলো:P × V1 = V2 P হলো শতকরা। V1…
গ্রোক এআই AI চ্যাটবট, যা xAI-এর উদ্যোগে তৈরি, এবং এটি মজার উত্তর দেয় এবং X-এর…
অনলাইনে আয়ের অন্যতম প্রধান উৎস হল গুগল এডসেন্স ও এফিলিয়েট মার্কেটিং। যদিও এছাড়াও বিভিন্ন মাধ্যম…