Artificial Intelligence: A Comprehensive Expert Overview
Artificial Intelligence: A Comprehensive Expert Overview
1. What Is Artificial Intelligence?
Artificial Intelligence (AI) is the science and engineering of
creating computational systems that can perform tasks which, when performed by
humans, would require intelligence. These tasks include reasoning, learning,
problem-solving, perception, language understanding, and decision-making.
The term was coined by John McCarthy in 1956 at the Dartmouth
Conference, where he defined it as "the science and engineering of making
intelligent machines." But the philosophical roots go back to Alan
Turing's 1950 paper Computing Machinery and Intelligence, where he asked
the provocative question: "Can machines think?"
AI is not a single technology. It is an umbrella field
encompassing dozens of subfields, methodologies, and paradigms — each with
different mechanisms, strengths, and limitations.
2. The Core Philosophical Foundation
At its heart, AI rests on a fundamental hypothesis called the Physical
Symbol System Hypothesis (Newell & Simon, 1976): "A physical
symbol system has the necessary and sufficient means for general intelligent
action." In plain terms, intelligence — whether human or machine — can
be reduced to the manipulation of symbols according to rules.
This gave rise to two major schools:
- Symbolic AI
(GOFAI — Good Old-Fashioned AI): Intelligence through logic, rules,
and explicit knowledge representation.
- Connectionist AI
(Neural/Statistical AI): Intelligence through learning patterns from
data, inspired by the brain's neural architecture.
Modern AI is dominated by the connectionist approach, particularly Deep
Learning, though hybrid systems are increasingly prominent.
3. Major Categories of AI
3.1 By Capability
|
Type |
Description |
Example |
|
Narrow AI (ANI) |
Excels at one specific task |
Chess engines, face recognition, ChatGPT |
|
General AI (AGI) |
Human-level reasoning across all domains |
Theoretical; not yet achieved |
|
Superintelligence (ASI) |
Surpasses human intelligence in all domains |
Hypothetical |
All AI systems today are Narrow AI, despite their impressive
capabilities.
3.2 By Learning Approach
- Supervised
Learning — learns from labeled data
- Unsupervised
Learning — finds patterns in unlabeled data
- Reinforcement
Learning — learns through trial, error, and reward signals
- Self-supervised /
Semi-supervised Learning — modern hybrid approaches
4. How AI Works — The Core Mechanism
Step 1: Data Ingestion
Every AI system begins with data — the fuel of intelligence.
This can be:
- Structured data
(tables, databases)
- Unstructured data
(text, images, audio, video)
- Simulated data (game
environments, physics simulations)
The quality, quantity, and diversity of data fundamentally determines
the ceiling of an AI system's performance.
Step 2: Representation
Raw data must be converted into a mathematical form the machine
can process. This is called feature representation or embedding:
- Images → pixel
matrices or learned feature vectors
- Text → token IDs →
dense vector embeddings
- Audio → spectrograms
or waveform tensors
In classical ML, humans engineered these features manually (e.g., edge
detectors for images). In deep learning, the network learns its own
representations automatically — one of the key breakthroughs.
Step 3: Model Architecture
A model is a mathematical function — a parameterized system —
that maps inputs to outputs:
f(x; θ) = ŷ
Where:
- x = input data
- θ = learnable
parameters (weights)
- ŷ = predicted output
Different architectures are suited for different problems:
- Linear/Logistic
Regression → simple classification/regression
- Decision Trees /
Random Forests → tabular data, interpretability
- Convolutional
Neural Networks (CNNs) → spatial data, images
- Recurrent Neural
Networks (RNNs/LSTMs) → sequential data, time series
- Transformers
→ language, vision, multimodal tasks (dominant today)
Step 4: The Learning Algorithm — Optimization
This is the engine of AI. Learning means finding parameter
values θ that minimize a loss function — a mathematical measure of how
wrong the model's predictions are.
The dominant algorithm is Gradient Descent:
θ_new = θ_old − α · ∇L(θ)
Where:
- α = learning rate
(step size)
- ∇L(θ) = gradient of the loss with
respect to parameters
In neural networks, gradients are computed via Backpropagation
— a chain rule application that propagates error signals backward through the
network layer by layer, adjusting each weight proportionally to its
contribution to the error.
This process repeats over thousands to billions of iterations across
the training data until the model converges to a good solution.
Step 5: Inference
Once trained, the model is deployed — given new, unseen inputs,
it runs a forward pass through its learned parameters to produce
predictions. No further learning occurs (in standard deployment); it simply
applies what it learned.
5. Deep Neural Networks — The Dominant Mechanism in Detail
Neuron (Perceptron)
The basic unit of a neural network is a neuron, which:
- Takes multiple
inputs x₁, x₂, ..., xₙ
- Multiplies each by a
weight w₁, w₂, ..., wₙ
- Sums them up and
adds a bias b
- Passes the result
through a non-linear activation function σ
output = σ(w₁x₁ + w₂x₂ + ... + wₙxₙ + b)
Common activation functions:
- ReLU
(Rectified Linear Unit): max(0, x) — fast, sparse, most common
- Sigmoid: 1 /
(1 + e⁻ˣ) — squashes to (0,1), used in output layers for probability
- Softmax:
normalizes outputs to a probability distribution over classes
- GELU / SwiGLU:
smoother variants used in modern LLMs (GPT, Claude, etc.)
Without non-linearity, no matter how many layers you stack, the entire
network collapses to a single linear function — incapable of learning complex
patterns. Non-linearity is what gives deep networks their expressive power.
Layers and Depth
Neurons are organized into layers:
- Input Layer
— receives raw data representation
- Hidden Layers
— intermediate transformations (can be dozens to thousands)
- Output Layer
— produces the final prediction
"Deep" learning refers simply to networks with many
hidden layers. Depth allows the network to build hierarchical
representations:
- Layer 1: detects
edges
- Layer 2: detects
shapes
- Layer 3: detects
object parts
- Layer N: detects
high-level concepts (faces, cats, sentiment, meaning)
6. The Transformer Architecture — The Engine Behind Modern AI
The Transformer (Vaswani et al., 2017 — "Attention Is
All You Need") revolutionized AI and underpins virtually all
state-of-the-art language and multimodal models today (GPT, Claude, Gemini,
LLaMA, DALL·E, Whisper, etc.).
The Core Innovation: Self-Attention
Instead of processing sequences step-by-step (like RNNs), Transformers
process all tokens simultaneously using a mechanism called self-attention,
which lets every token directly attend to every other token in the sequence.
For each token, three vectors are computed:
- Query (Q):
"What am I looking for?"
- Key (K):
"What do I contain?"
- Value (V):
"What information do I carry?"
Attention score between tokens i and j:
Attention(Q, K, V) = softmax(QKᵀ / √dₖ) · V
The √dₖ scaling prevents the dot products from growing too
large in high dimensions.
This allows the model to dynamically determine which tokens are
most relevant to each other — for example, in "The animal didn't cross
the street because it was too tired," the model learns that "it"
refers to "animal" and not "street."
Multi-Head Attention
Multiple attention heads run in parallel, each learning different
types of relationships — syntactic, semantic, positional, coreference —
simultaneously. Their outputs are concatenated and projected.
Positional Encoding
Since attention is order-agnostic, position information is injected
via positional encodings — either fixed sinusoidal functions or learned
embeddings — added to token embeddings before processing.
Feed-Forward Sublayers
After attention, each token independently passes through a position-wise
feed-forward network (two linear layers with a non-linearity), which acts
as a per-token "memory" or reasoning step.
Residual Connections and Layer Normalization
Both the attention and feed-forward sublayers use:
- Residual
connections (x + sublayer(x)) — allow gradients to flow freely during
backprop, enabling very deep networks
- Layer
Normalization — stabilizes training by normalizing activations
7. Large Language Models (LLMs) — A Special Case
LLMs like GPT-4, Claude, and Gemini are massive Transformer models
trained on trillions of tokens of text using a self-supervised objective:
given a sequence of tokens, predict the next token.
P(token_t | token_1, token_2, ..., token_{t-1})
This deceptively simple objective forces the model to learn grammar,
facts, reasoning, coding, math, and world knowledge — because predicting text
accurately requires understanding it.
Scale as a Fundamental Driver
LLMs exhibit emergent capabilities — abilities that appear
suddenly above certain scale thresholds (model size × data × compute), not
predictable by extrapolating from smaller models. These include multi-step
reasoning, analogical thinking, and in-context learning.
The scaling law (Kaplan et al., 2020) shows that model performance
follows a power law with compute, data, and parameters — leading to the
rapid scale-up of models from millions to hundreds of billions of parameters.
Instruction Tuning and RLHF
Raw pretrained LLMs generate text continuations — not helpful
assistants. To make them useful:
- Supervised
Fine-Tuning (SFT): Train on curated instruction-response pairs.
- Reinforcement
Learning from Human Feedback (RLHF): Human raters rank model outputs →
train a reward model → use Proximal Policy Optimization (PPO)
to maximize reward.
- Constitutional
AI / DPO: More recent alignment methods for safety and helpfulness.
This is what transforms a base model into a conversational assistant.
8. Other Major AI Paradigms
Reinforcement Learning (RL)
An agent interacts with an environment, takes actions,
receives rewards, and learns a policy (action-selection strategy)
to maximize cumulative reward. Used in robotics, game-playing
(AlphaGo/AlphaZero), and LLM alignment.
Core components:
- State (s):
current environment configuration
- Action (a):
what the agent does
- Reward (r):
scalar feedback signal
- Policy (π):
mapping from states to actions
- Value Function
(V): expected future reward from a state
Generative AI
Models that generate new data — images (Diffusion Models), text
(LLMs), audio, video. Key mechanisms:
- Variational
Autoencoders (VAEs): encode to latent space, decode back
- Generative
Adversarial Networks (GANs): generator vs. discriminator adversarial
training
- Diffusion
Models: iteratively denoise random noise into structured data (used in
Stable Diffusion, DALL·E 3, Sora)
Computer Vision
CNNs and Vision Transformers (ViTs) process image/video data for:
- Classification,
detection, segmentation
- Depth estimation,
pose estimation
- Optical flow and
video understanding
9. The AI Development Pipeline (End-to-End)
Problem Definition
↓
Data Collection & Curation
↓
Data Preprocessing & Augmentation
↓
Model Architecture Selection / Design
↓
Training (Forward Pass → Loss → Backprop → Gradient Update)
↓
Validation & Hyperparameter Tuning
↓
Evaluation on Test Set (Accuracy, F1, BLEU, ROUGE, etc.)
↓
Fine-tuning / Alignment (for LLMs)
↓
Deployment & Monitoring
↓
Continuous Learning / Retraining
10. Key Limitations and Open Problems
- Hallucination:
LLMs generate plausible-sounding but factually incorrect content — because
they optimize for token prediction, not truth.
- Reasoning Gaps:
Deep multi-step logical/mathematical reasoning remains brittle.
- Interpretability:
We cannot fully explain why a deep network makes a specific
prediction — the "black box" problem.
- Data Hunger:
Large models require enormous datasets that may not exist for specialized
domains.
- Generalization
vs. Memorization: Models can overfit, memorizing training data rather
than learning transferable patterns.
- Alignment:
Ensuring AI systems pursue human-intended goals robustly and safely is an
unsolved research problem.
- Computational
Cost: Training frontier models requires thousands of GPUs/TPUs running
for months — enormous energy and financial cost.
Summary
AI works by representing the world mathematically, learning
patterns from data through iterative optimization, and applying learned
knowledge to new situations. The dominant modern mechanism — the Transformer
with self-attention — allows models to capture rich, long-range dependencies in
data at unprecedented scale. The combination of scale, self-supervised
pretraining, and alignment techniques has produced today's capable AI systems.
Yet beneath every impressive output is mathematics: matrix multiplications,
gradient signals, and billions of carefully tuned numerical weights encoding
compressed knowledge of the world.
The field is advancing faster than at any point in its 70-year history
— and the most profound questions about intelligence, both artificial and
human, remain open.
কৃত্রিম বুদ্ধিমত্তা (AI) — সহজ বাংলায় সম্পূর্ণ ব্যাখ্যা
১. AI আসলে কী?
কল্পনা করো তুমি একটি
ছোট বাচ্চাকে শেখাচ্ছো বিড়াল কাকে বলে। তুমি
তাকে ১০০টি বিড়ালের ছবি দেখালে, বললে
"এটা বিড়াল।" আবার কুকুরের ছবি
দেখিয়ে বললে "এটা বিড়াল না।"
কিছুদিন পর সে নিজেই
যেকোনো বিড়াল চিনতে পারে।
AI ঠিক
এভাবেই কাজ করে — শুধু বাচ্চার জায়গায়
আছে একটি কম্পিউটার প্রোগ্রাম।
সহজ সংজ্ঞা: AI হলো এমন একটি
কম্পিউটার সিস্টেম যেটা মানুষের মতো
শিখতে পারে, চিন্তা করতে পারে, এবং সিদ্ধান্ত নিতে পারে।
২. AI কীভাবে "শেখে"? — একটি সহজ উদাহরণ
ধরো তোমাকে বলা হলো — "আম মিষ্টি
হলে ভালো আম, টক হলে খারাপ আম।"
তুমি ১০০০টি আম খেলে এবং
প্রতিটির স্বাদ মনে রাখলে। এরপর
নতুন একটি আম দেখলেই
তুমি বলতে পারবে সেটা
ভালো না খারাপ।
AI-ও এভাবেই কাজ করে:
প্রচুর তথ্য (Data) দাও
↓
AI সেটা থেকে প্যাটার্ন খোঁজে
↓
ভুল হলে নিজেকে সংশোধন
করে
↓
বারবার করতে করতে সঠিক
উত্তর দিতে শেখে
এই পুরো প্রক্রিয়াটাকে বলে
Machine Learning (মেশিন
লার্নিং)।
৩. AI-এর ভেতরে কী আছে? — নিউরাল নেটওয়ার্ক
মানুষের মস্তিষ্ক বনাম AI-এর মস্তিষ্ক
আমাদের মস্তিষ্কে আছে প্রায় ৮৬
বিলিয়ন নিউরন (স্নায়ুকোষ)। এরা একে অপরের
সাথে সংযুক্ত এবং তথ্য আদান-প্রদান করে।
AI-তেও ঠিক একইভাবে কৃত্রিম
নিউরন তৈরি করা হয়েছে,
যেগুলো একে অপরের সাথে
সংযুক্ত। এটাকেই বলে Neural Network (নিউরাল নেটওয়ার্ক)।
একটি কৃত্রিম নিউরন কীভাবে কাজ করে?
ধরো তুমি সিদ্ধান্ত নিচ্ছো
আজ বাইরে যাবে কিনা:
|
বিষয় |
গুরুত্ব
(Weight) |
|
রোদ আছে? |
৫০% |
|
বন্ধু যাচ্ছে? |
৩০% |
|
কাজ আছে? |
২০% |
তুমি প্রতিটি বিষয়কে তার গুরুত্ব দিয়ে
গুণ করে যোগ করো,
তারপর সিদ্ধান্ত নাও। AI-এর নিউরনও হুবহু
এভাবেই সংখ্যা গুণ করে, যোগ
করে এবং সিদ্ধান্ত নেয়।
৪. লেয়ার (Layer) — AI-এর চিন্তার স্তর
একটি ছবিতে বিড়াল চেনার সময় AI ধাপে ধাপে চিন্তা
করে:
ছবি
দেখলো
↓
১ম লেয়ার: রেখা ও কোণ
চিনলো (আঁকাবাঁকা দাগ)
↓
২য়
লেয়ার: আকৃতি চিনলো (কান, চোখ, নাক)
↓
৩য়
লেয়ার: অঙ্গ জুড়ে মুখমণ্ডল
চিনলো
↓
৪র্থ
লেয়ার: সব মিলিয়ে বললো
— "এটা বিড়াল!"
যত বেশি লেয়ার, তত
বেশি জটিল জিনিস বুঝতে
পারে। এই বহু লেয়ারের
নেটওয়ার্ককেই বলে Deep Learning (ডিপ লার্নিং)।
৫. AI কীভাবে ভুল থেকে শেখে? — সবচেয়ে গুরুত্বপূর্ণ অংশ
এটা বোঝার জন্য একটা গল্প
কল্পনা করো:
তুমি তীরন্দাজি শিখছো। প্রথমবার তীর ছুড়লে, লক্ষ্য
থেকে ১ মিটার বাঁয়ে
গেলো। তুমি বুঝলে — একটু
ডানে ছুড়তে হবে। পরেরবার ৫০
সেমি বাঁয়ে গেলো। আবার ঠিক করলে।
এভাবে বারবার ঠিক করতে করতে
একসময় লক্ষ্যভেদ করলে।
AI-ও ঠিক এভাবে শেখে।
এই প্রক্রিয়ার নাম Gradient Descent (গ্রেডিয়েন্ট ডিসেন্ট):
- AI একটা উত্তর দেয়
- সঠিক উত্তরের সাথে তুলনা করে দেখা হয় কতটা ভুল হয়েছে — এটাকে বলে Loss (লস)
- ভুলটা কোথায় হলো সেটা পেছন থেকে ধরে ধরে ঠিক করা হয় — এই প্রক্রিয়ার নাম Backpropagation
(ব্যাকপ্রপাগেশন)
- এভাবে কোটি কোটিবার ঠিক করতে করতে AI নিখুঁত হয়ে যায়
৬.
Transformer — আধুনিক
AI-এর হৃদয়
ChatGPT, Claude, Gemini — এই
সব AI-এর ভেতরে Transformer নামের একটি বিশেষ কাঠামো
আছে। এটা ২০১৭ সালে
আবিষ্কার হয় এবং AI-এর
দুনিয়া পালটে দেয়।
Transformer কী
করে?
ধরো একটা বাক্য: "রহিম বাজারে
গেলো কারণ সে ক্ষুধার্ত ছিল।"
এখানে "সে" বলতে কাকে বোঝাচ্ছে?
— রহিমকে।
Transformer-এর
Attention (অ্যাটেনশন)
মেকানিজম প্রতিটি শব্দকে বাক্যের অন্য সব শব্দের
সাথে মিলিয়ে দেখে এবং বোঝে
কোন শব্দ কোন শব্দের
সাথে সম্পর্কিত। এই কারণেই আধুনিক
AI ভাষা এত ভালো বোঝে।
সহজভাবে বলতে গেলে — Transformer একটা বাক্যের
প্রতিটি শব্দ পড়ে এবং
ভাবে:
"এই
শব্দটা বুঝতে হলে বাক্যের কোন কোন শব্দে মনোযোগ দিতে হবে?"
৭. বড় ভাষা মডেল (LLM) — ChatGPT ও Claude কীভাবে কাজ করে?
প্রশিক্ষণ পদ্ধতি
ChatGPT বা
Claude — এদেরকে ইন্টারনেটের কোটি কোটি বাক্য পড়িয়ে শেখানো হয়েছে। শেখানোর পদ্ধতিটা ছিল সহজ:
একটা বাক্যের শেষ শব্দ লুকিয়ে
রাখো, AI-কে অনুমান করতে
দাও পরের শব্দটা কী
হবে।
যেমন: "আকাশের রং ___" → AI বলবে "নীল"
এই সহজ কাজটা কোটি
কোটিবার করতে করতে AI শিখে
ফেলে:
- ব্যাকরণ
- ইতিহাস, বিজ্ঞান, গণিত
- কোডিং
- যুক্তিতর্ক
- এমনকি কবিতা লেখাও!
তারপর মানুষের মতো সহকারী হওয়া
শুধু পরের শব্দ অনুমান
করা শেখালে AI একটা ভালো সহকারী
হয় না। তাই আরও
দুটো ধাপ আছে:
১. নির্দেশনা শেখানো (Fine-tuning): মানুষ AI-কে প্রশ্ন করে,
ভালো উত্তর দেখিয়ে দেয়। AI সেটা শেখে।
২. মানুষের পছন্দ শেখানো (RLHF): AI কয়েকটি উত্তর দেয় → মানুষ ভোট দেয় কোনটা
ভালো → AI বোঝে মানুষ কেমন
উত্তর পছন্দ করে → সেইমতো নিজেকে উন্নত করে।
৮. AI-এর তিনটি প্রধান শেখার পদ্ধতি
ক)
Supervised Learning — শিক্ষকের
সাহায্যে শেখা
- উদাহরণ: ১০,০০০ ইমেইল দেওয়া হলো, প্রতিটিতে লেখা আছে "স্প্যাম" বা "স্প্যাম নয়"
- AI শিখলো কোন ধরনের ইমেইল স্প্যাম হয়
- ব্যবহার: ছবি চেনা, রোগ নির্ণয়, স্প্যাম ফিল্টার
খ)
Unsupervised Learning — নিজে
নিজে শেখা
- উদাহরণ: ১০,০০০ গ্রাহকের কেনাকাটার তথ্য দেওয়া হলো, কোনো লেবেল নেই
- AI নিজেই গ্রুপ তৈরি করলো — "এরা বই কেনে, এরা ইলেকট্রনিক্স কেনে"
- ব্যবহার: কাস্টমার সেগমেন্টেশন, অসামঞ্জস্য ধরা
গ)
Reinforcement Learning — পুরস্কার
থেকে শেখা
- উদাহরণ: একটা রোবট হাঁটতে শিখছে। সঠিক পদক্ষেপে পুরস্কার (+১), পড়ে গেলে শাস্তি (-১)
- হাজারবার চেষ্টার পর রোবট হাঁটতে শিখে গেলো
- ব্যবহার: গেম খেলা (AlphaGo), রোবোটিক্স, স্বায়ত্তশাসিত গাড়ি
৯.
Generative AI — যে
AI তৈরি করতে পারে
এই ধরনের AI শুধু চেনে না
— নতুন জিনিস বানাতে পারে।
|
AI |
কী
তৈরি করে |
|
ChatGPT / Claude |
লেখা, কোড, বিশ্লেষণ |
|
DALL·E / Midjourney |
ছবি |
|
Sora |
ভিডিও |
|
Suno / Udio |
গান ও সংগীত |
|
GitHub Copilot |
কম্পিউটার কোড |
Diffusion Model — ছবি
তৈরির জাদু
ছবি তৈরির AI কীভাবে কাজ করে সেটা
অনেকটা এরকম:
একটা ঝাপসা শব্দময় ছবি নাও
↓
ধীরে ধীরে শব্দ কমাতে
থাকো
↓
প্রতিটি ধাপে ছবি আরো
স্পষ্ট হতে থাকে
↓
শেষে একটি পরিষ্কার সুন্দর
ছবি তৈরি হয়
১০. AI কোথায় কোথায় ব্যবহার হচ্ছে?
|
ক্ষেত্র |
ব্যবহার |
|
স্বাস্থ্য |
ক্যান্সার শনাক্তকরণ, এক্স-রে বিশ্লেষণ, ওষুধ
আবিষ্কার |
|
শিক্ষা |
ব্যক্তিগতকৃত
পাঠ্যক্রম, স্বয়ংক্রিয় মূল্যায়ন |
|
কৃষি |
ফসলের রোগ চেনা, সেচ ব্যবস্থাপনা |
|
পরিবহন |
স্বায়ত্তশাসিত
গাড়ি, ট্র্যাফিক নিয়ন্ত্রণ |
|
ব্যাংকিং |
জালিয়াতি শনাক্তকরণ, ঋণ মূল্যায়ন |
|
বিনোদন |
Netflix-এর সুপারিশ, গেম AI |
|
ভাষা |
অনুবাদ, ভয়েস অ্যাসিস্ট্যান্ট (Siri,
Alexa) |
১১. AI-এর সীমাবদ্ধতা — AI কী পারে না?
AI অনেক শক্তিশালী, কিন্তু এর দুর্বলতাও আছে:
- হ্যালুসিনেশন: AI মাঝে মাঝে ভুল তথ্য আত্মবিশ্বাসের সাথে বলে, কারণ সে "সত্য" বোঝে না, শুধু প্যাটার্ন জানে
- সাধারণ বুদ্ধি নেই: AI একটি ৫ বছরের শিশু যা বোঝে (যেমন: "পানি ভেজা") তা বুঝতে হিমশিম খেতে পারে
- প্রচুর ডেটা দরকার: মানুষ ১টি উদাহরণ দেখেই শেখে, AI-এর লাগে লাখো উদাহরণ
- বোঝে না, মেলায়: AI আসলে কিছু "বোঝে" না — সে শুধু প্যাটার্নের সাথে মেলায়
- নৈতিক সমস্যা: ভুল ডেটা দিলে AI পক্ষপাতমূলক (Biased) হয়ে যায়
১২. সবকিছু এক নজরে
AI = ডেটা + গণিত + বারবার শেখা
Neural Network = কৃত্রিম
মস্তিষ্ক
Deep Learning = বহু
স্তরের চিন্তা
Transformer = ভাষা
বোঝার জাদুর যন্ত্র
LLM = কোটি বাক্য পড়া বিশাল ভাষা
মডেল
Generative AI = নতুন
কিছু তৈরি করতে সক্ষম
AI
সারসংক্ষেপ
AI কোনো জাদু নয়। এটা
হলো গণিত + প্রচুর ডেটা + বুদ্ধিমান অ্যালগরিদমের সমন্বয়। একটি শিশু যেমন
দেখে দেখে, শুনে শুনে, ভুল
করে করে শেখে — AI-ও
ঠিক তেমনি। পার্থক্য শুধু একটাই — AI লক্ষ
কোটি উদাহরণ থেকে মাত্র কয়েক
ঘণ্টায় শিখে ফেলতে পারে,
যা একজন মানুষের পুরো
জীবনেও সম্ভব নয়।
AI এখনো সত্যিকারের "বুদ্ধিমত্তা" অর্জন করেনি — সে অনেক চালাক,
কিন্তু সে বোঝে না, সে মেলায়। আর সেই পার্থক্যটাই
আজকের গবেষণার সবচেয়ে বড় প্রশ্ন।
ChatGPT, Claude, NotebookLM — এরা কীভাবে কাজ করে?
প্রথমে বুঝি — এই সব AI টুল আসলে কী?
ChatGPT, Claude, NotebookLM — এগুলো সবই Large
Language Model (LLM) এর উপর তৈরি।
কিন্তু প্রতিটি আলাদা
কোম্পানি, আলাদা উদ্দেশ্য, আলাদা কৌশল ব্যবহার করে।
একটা সহজ উপমা দিয়ে শুরু করি:
কল্পনা করো একটা বিশাল লাইব্রেরি — যেখানে
ইন্টারনেটের প্রায় সব বই, নিবন্ধ,
কোড, কথোপকথন সংরক্ষিত। এখন একজন অতি
মেধাবী ছাত্র সেই পুরো লাইব্রেরি পড়ে ফেলেছে এবং সব মনে রেখেছে। তুমি যখন তাকে প্রশ্ন করো, সে সেই জ্ঞান থেকে উত্তর তৈরি করে।
এই "ছাত্র"ই হলো LLM। আর ChatGPT, Claude, NotebookLM হলো সেই ছাত্রকে ভিন্ন
ভিন্ন পোশাক পরিয়ে, ভিন্ন ভিন্ন কাজে লাগানো।
১. ChatGPT
— OpenAI-এর তৈরি
ভেতরে কী আছে?
ChatGPT-এর ভেতরে
আছে GPT (Generative
Pre-trained Transformer) মডেল।
এটি OpenAI তৈরি করেছে।
ধাপে ধাপে কীভাবে কাজ করে?
তুমি প্রশ্ন লিখলে
↓
Tokenization — বাক্যটা ছোট ছোট টোকেনে
ভাগ হয়
("আমি ভালো আছি" → ["আমি", "ভালো", "আছি"])
↓
Embedding — প্রতিটি টোকেন
সংখ্যায় রূপান্তরিত হয়
↓
Transformer লেয়ারে প্রবেশ
করে
(৯৬টি লেয়ার,
কোটি কোটি প্যারামিটার)
↓
Attention মেকানিজম প্রতিটি শব্দের সম্পর্ক বোঝে
↓
পরবর্তী সম্ভাব্য শব্দ হিসাব করে
↓
সেরা শব্দটি বেছে নেয় এবং উত্তর তৈরি হয়
GPT-এর
বিশেষত্ব —
Token by Token উত্তর
ChatGPT একবারে পুরো উত্তর তৈরি করে না। সে একটা
একটা শব্দ (token) তৈরি করে। প্রতিটি শব্দ তৈরির সময় সে ভাবে
— "এখন পর্যন্ত যা বলেছি তার পর সবচেয়ে সম্ভাব্য পরের শব্দ কোনটা?"
এটা অনেকটা এরকম:
"আকাশের রং..."
→ সবচেয়ে সম্ভাব্য পরের শব্দ → "নীল" "নীল..." → পরের শব্দ
→ "এবং" এভাবে চলতে থাকে...
ChatGPT-এর
তিনটি প্রশিক্ষণ ধাপ
ধাপ ১ — Pre-training (আগাম প্রশিক্ষণ): ইন্টারনেটের কোটি কোটি টেক্সট
পড়িয়ে শেখানো হয়। শুধু "পরের শব্দ কী হবে" এই কাজ করতে করতে ভাষা,
যুক্তি, জ্ঞান সব শিখে ফেলে।
ধাপ ২ — Fine-tuning (সূক্ষ্ম প্রশিক্ষণ): মানুষ
প্রশ্ন করে এবং ভালো উত্তর
লিখে দেয়। AI সেটা নকল করতে শেখে।
ধাপ ৩ — RLHF (মানুষের পছন্দ থেকে শেখা): AI কয়েকটা উত্তর দেয় → মানুষ
ভোট দেয় কোনটা
ভালো → AI বুঝতে পারে মানুষ কী চায় → সেইমতো
নিজেকে ঠিক করে।
ChatGPT-এ
Tools ব্যবহার
আধুনিক ChatGPT শুধু কথা বলে না — সে টুলও
ব্যবহার করতে পারে:
|
টুল |
কাজ |
|
Web Search |
ইন্টারনেট থেকে তাজা
তথ্য আনে |
|
Code Interpreter |
Python কোড চালায়, গ্রাফ বানায় |
|
DALL·E |
ছবি তৈরি করে |
|
File Reading |
PDF, Word ফাইল পড়তে পারে |
২. Claude
AI — Anthropic-এর
তৈরি (আমি!)
ChatGPT-এর
সাথে পার্থক্য কোথায়?
Claude-এর ভেতরেও
Transformer-ভিত্তিক LLM আছে। কিন্তু
Anthropic-এর মূল পার্থক্য হলো নিরাপত্তা ও নৈতিকতা নিয়ে
অসাধারণ মনোযোগ।
Constitutional AI — Claude-এর
বিশেষ পদ্ধতি
Anthropic একটি বিশেষ
পদ্ধতি ব্যবহার করে যার নাম Constitutional
AI (CAI):
Claude-কে একটি
"সংবিধান" দেওয়া হয়েছে
(নীতিমালার একটি সেট — কী করা যাবে,
কী যাবে না)
↓
Claude নিজেই তার উত্তর মূল্যায়ন করে
"এই উত্তরটা কি নৈতিক? কি সহায়ক? কি সৎ?"
↓
প্রয়োজনে নিজেই উত্তর
সংশোধন করে
↓
ফলে Claude আরো নিরাপদ
ও বিশ্বস্ত হয়
Claude-এর
বিশেষ শক্তি
- বিশাল Context Window: Claude একসাথে অনেক বড় ডকুমেন্ট পড়তে ও মনে রাখতে পারে
- দীর্ঘ যুক্তিতর্ক: জটিল বিশ্লেষণে পারদর্শী
- সৎ থাকা: কিছু না জানলে স্বীকার করে, ভুল তথ্য দেওয়া এড়ায়
- নিরাপত্তা: ক্ষতিকর কিছু করতে অস্বীকার করার ক্ষমতা
Claude কীভাবে
একটি কথোপকথন পরিচালনা করে?
তুমি মেসেজ পাঠালে
↓
পুরো কথোপকথনের ইতিহাস
+ তোমার নতুন মেসেজ
একসাথে মডেলে পাঠানো
হয়
↓
Claude বুঝলো Context — আগে কী বলা হয়েছিল
↓
Constitutional AI নীতি অনুযায়ী উত্তর যাচাই করা হয়
↓
সহায়ক, সৎ ও নিরাপদ উত্তর
তৈরি হয়
৩. Google
NotebookLM — সম্পূর্ণ
আলাদা কৌশল
NotebookLM কী?
NotebookLM সাধারণ chatbot নয়। এটি একটি "Personal Research Assistant"
— তোমার নিজের ডকুমেন্ট থেকে তোমার জন্য জ্ঞান তৈরি করে।
এর বিশেষ কৌশল — RAG
(Retrieval-Augmented Generation)
এটাই NotebookLM-এর মূল জাদু। RAG মানে হলো:
তুমি ডকুমেন্ট আপলোড
করলে (PDF, নোট, ওয়েবসাইট)
↓
NotebookLM পুরো ডকুমেন্ট টুকরো টুকরো করে
(এই টুকরোগুলোকে বলে "Chunks")
↓
প্রতিটি টুকরো সংখ্যায় রূপান্তর করে সংরক্ষণ করে
(এই সংখ্যার ডেটাবেজকে বলে "Vector Database")
↓
তুমি প্রশ্ন করলে
— প্রথমে ডেটাবেজে খোঁজা
হয়
সবচেয়ে প্রাসঙ্গিক টুকরোগুলো বের করা হয়
↓
সেই টুকরোগুলো + তোমার
প্রশ্ন একসাথে
Google Gemini মডেলে পাঠানো
হয়
↓
Gemini শুধু সেই ডকুমেন্ট থেকেই
উত্তর তৈরি করে
(নিজের মাথা থেকে কিছু যোগ করে না)
RAG কেন
এত গুরুত্বপূর্ণ?
সাধারণ AI (ChatGPT, Claude)
তার প্রশিক্ষণের সময়কার জ্ঞান থেকে উত্তর দেয়।
কিন্তু RAG-ভিত্তিক NotebookLM:
|
বিষয় |
সাধারণ
AI |
NotebookLM (RAG) |
|
তথ্যের উৎস |
প্রশিক্ষণ ডেটা |
তোমার নিজের ডকুমেন্ট |
|
নতুন তথ্য |
জানে না |
তুমি দিলেই জানে |
|
উদ্ধৃতি দেওয়া |
পারে না |
কোন পৃষ্ঠা থেকে
বলেছে জানায় |
|
গোপনীয়তা |
সব জানে |
শুধু তুমি যা দিয়েছ |
NotebookLM-এর
Podcast ফিচার
NotebookLM অডিও পডকাস্ট তৈরি করতে পারে।
এটা কীভাবে হয়?
তোমার ডকুমেন্ট থেকে মূল তথ্য বের করা হয়
↓
Gemini দিয়ে দুইজন
উপস্থাপকের কথোপকথন স্ক্রিপ্ট লেখা হয়
↓
Text-to-Speech AI দিয়ে কণ্ঠস্বর তৈরি হয়
↓
স্বাভাবিক কথোপকথনের মতো পডকাস্ট তৈরি হয়
৪. Google
Gemini
বিশেষত্ব —
Multimodal AI
Gemini শুরু থেকেই
একাধিক মাধ্যম বুঝতে
পারে:
ছবি + টেক্সট + অডিও
+ ভিডিও + কোড
↓
সব একসাথে প্রক্রিয়া করতে পারে
↓
"এই ছবিতে
কী আছে এবং এটা কি বিপজ্জনক?"
— এই ধরনের
মিশ্র প্রশ্নের উত্তর
দিতে পারে
Gemini-র বিভিন্ন সংস্করণ আছে:
- Gemini Nano — মোবাইলে চলে
- Gemini Pro — সাধারণ কাজের জন্য
- Gemini Ultra — সবচেয়ে শক্তিশালী, জটিল কাজের জন্য
৫.
Microsoft Copilot
বিশেষত্ব —
সব জায়গায় AI
Microsoft GPT-4 কিনে নিজেদের সব পণ্যে ঢুকিয়ে দিয়েছে:
Word → লেখা তৈরি ও সম্পাদনা
Excel → ডেটা বিশ্লেষণ ও সূত্র তৈরি
PowerPoint → স্লাইড তৈরি
Teams → মিটিং সারসংক্ষেপ
Outlook → ইমেইল লেখা ও উত্তর
Windows → সরাসরি OS-এ AI সহায়তা
Copilot-এর বিশেষ
কৌশল হলো "Grounding" — ইন্টারনেট ও
Microsoft Graph থেকে রিয়েল-টাইম তথ্য এনে উত্তরে যুক্ত
করে।
৬. GitHub
Copilot — কোডারদের
AI সহকারী
কীভাবে কোড সম্পূর্ণ করে?
তুমি কোড লিখতে
শুরু করলে
↓
Copilot পুরো ফাইলের
কোড + তোমার কার্সরের অবস্থান দেখে
↓
GitHub-এর কোটি কোটি ওপেন সোর্স কোড থেকে শেখা
Codex মডেল ব্যবহার করে
↓
পরের লাইন কী হতে পারে অনুমান করে
↓
ধূসর রঙে সাজেশন
দেখায় — তুমি Accept করলে যোগ হয়
৭.
Perplexity AI — Search + AI একসাথে
Perplexity হলো AI + Search Engine এর সমন্বয়:
তুমি প্রশ্ন করলে
↓
প্রথমে ইন্টারনেটে রিয়েল-টাইম সার্চ
করে
↓
সেরা ওয়েবসাইটগুলো থেকে তথ্য সংগ্রহ
করে
↓
LLM দিয়ে সেই তথ্য সংক্ষেপ করে উত্তর দেয়
↓
প্রতিটি তথ্যের উৎস (সাইটের লিংক)
দেখায়
এটা NotebookLM-এর মতোই
RAG ব্যবহার করে, কিন্তু
তোমার ডকুমেন্টের বদলে ইন্টারনেট ব্যবহার করে।
৮. সব AI টুলের ভেতরের কমন কাঠামো
এত ভিন্ন ভিন্ন
AI হলেও ভেতরে প্রায়
সবার কাঠামো একই:
┌─────────────────────────────────────────┐
│ তোমার Input │
│ (টেক্সট
/ ছবি / ফাইল / কণ্ঠ) │
└──────────────────┬──────────────────────┘
↓
┌─────────────────────────────────────────┐
│ Preprocessing │
│ Tokenization + Embedding │
└──────────────────┬──────────────────────┘
↓
┌─────────────────────────────────────────┐
│ LLM Core (Transformer) │
│ Self-Attention + Feed Forward Layers │
│ (GPT / Gemini / Claude / Llama) │
└──────────────────┬──────────────────────┘
↓
┌─────────────────────────────────────────┐
│ External Tools (Optional) │
│ Web Search / Code Runner / RAG / API │
└──────────────────┬──────────────────────┘
↓
┌─────────────────────────────────────────┐
│ Output │
│ টেক্সট
/ ছবি / কোড / অডিও │
└─────────────────────────────────────────┘
৯. তুলনামূলক চার্ট — কে কোথায় ভালো?
|
বৈশিষ্ট্য |
ChatGPT |
Claude |
NotebookLM |
Gemini |
Perplexity |
|
সাধারণ কথোপকথন |
✅ চমৎকার |
✅ চমৎকার |
⚠️ সীমিত |
✅ ভালো |
✅ ভালো |
|
নিজের ডকুমেন্ট বিশ্লেষণ |
✅ ভালো |
✅ চমৎকার |
✅ সেরা |
✅ ভালো |
⚠️ সীমিত |
|
ইন্টারনেট
সার্চ |
✅ আছে |
✅ আছে |
❌ নেই |
✅ আছে |
✅ সেরা |
|
কোড লেখা |
✅ চমৎকার |
✅ চমৎকার |
❌ নেই |
✅ ভালো |
⚠️ সীমিত |
|
নিরাপত্তা
ও নৈতিকতা |
✅ ভালো |
✅ সেরা |
✅ ভালো |
✅ ভালো |
✅ ভালো |
|
ছবি তৈরি |
✅ DALL·E |
❌ নেই |
❌ নেই |
✅ Imagen |
❌ নেই |
|
উৎস উদ্ধৃতি |
⚠️ কখনো কখনো |
⚠️ কখনো কখনো |
✅ সবসময় |
⚠️ কখনো কখনো |
✅ সবসময় |
১০. সবচেয়ে গুরুত্বপূর্ণ বিষয় — Context Window
সব AI-এর একটি "মেমরি সীমা" আছে। একটি কথোপকথনে সে কতটুকু মনে রাখতে পারে তাকে বলে Context
Window:
- ChatGPT-4: ~১২৮,০০০ টোকেন (প্রায় ৯৬,০০০ শব্দ)
- Claude: ~২০০,০০০ টোকেন (প্রায় ১৫০,০০০ শব্দ)
- Gemini 1.5 Pro: ~১,০০০,০০০ টোকেন (প্রায় একটি পূর্ণ উপন্যাস!)
এই সীমার বাইরে
গেলে AI আগের কথা
"ভুলে যায়।"
সারসংক্ষেপ
সব AI চ্যাটবট মূলত একই ভিত্তির উপর দাঁড়িয়ে — Transformer + LLM। কিন্তু প্রতিটি কোম্পানি ভিন্ন উদ্দেশ্যে, ভিন্ন
কৌশলে সেই ভিত্তিকে ব্যবহার করেছে:
- ChatGPT — সবকিছুর জন্য একটি সহকারী, টুল ব্যবহারে দক্ষ
- Claude — নিরাপদ, সৎ, দীর্ঘ বিশ্লেষণে শ্রেষ্ঠ
- NotebookLM — তোমার নিজের ডকুমেন্ট থেকে গবেষণা সহকারী (RAG)
- Gemini — মাল্টিমিডিয়া বোঝার ক্ষমতা, Google-এর সব পণ্যে সংযুক্ত
- Perplexity — রিয়েল-টাইম ইন্টারনেট তথ্যসহ উৎসভিত্তিক উত্তর
প্রযুক্তি একই — দৃষ্টিভঙ্গি
আলাদা। আর সেই পার্থক্যই তাদের আলাদা করে তোলে।
Comments
Post a Comment