සංඛ්‍යානයේදී දත්ත විශ්ලේෂණය සඳහා අත්‍යවශ්‍ය මූලික කරුණු පිළිබඳ කෙටි සටහන

හැඳින්වීම

සංඛ්‍යානය යනු දත්ත තුළින් කථා තේරුම් ගැනීමට අවශ්‍ය භාෂාව සහ මෙවලම් සපයන ප්‍රබල විෂයකි. මෙම මාර්ගෝපදේශය මගින් සංඛ්‍යානයේ මූලික අර්ථ දැක්වීම්වල සිට ප්‍රධාන විශ්ලේෂණ මිනුම් දක්වා වූ සංකල්ප පැහැදිලි සහ ක්‍රමානුකූල දළ විශ්ලේෂණයක් සපයයි. මෙම සටහන, එම මෙවලම් ක්‍රමානුකූලව ප්‍රගුණ කිරීමට ඔබට උපකාරී වනු ඇත.

1. සංඛ්‍යානයේ මූලික සංකල්ප (Fundamental Concepts in Statistics)

ඕනෑම දත්ත විශ්ලේෂණයක් සඳහා පදනම වන්නේ සංඛ්‍යානයේ මූලික පාරිභාෂික ශබ්ද මාලාව අවබෝධ කර ගැනීමයි. මෙම සංකල්ප සියලුම සංඛ්‍යානමය ක්‍රමවේදයන් සඳහා අඩිතාලම සපයන බැවින් ඒවා නිවැරදිව වටහා ගැනීම අත්‍යවශ්‍ය වේ.

1.1 ගහනය සහ නියැදිය (Population and Sample)

ගහනය (Population): අධ්‍යයනයකට අදාළ සියලුම සාමාජිකයින් හෝ අයිතමයන්ගෙන් සැදුම්ලත් සම්පූර්ණ සමූහයයි. උදාහරණයක් ලෙස, "ශ්‍රී ලංකාවේ සියලුම උසස් පෙළ සිසුන්" යනු ගහනයකි.
නියැදිය (Sample): සමස්ත ගහනය නියෝජනය කිරීම සඳහා එයින් තෝරාගත් දත්ත කුලකයක් හෝ උප කුලකයකි. විශ්ලේෂණ කටයුතු සඳහා යොදාගනු ලබන්නේ මෙම නියැදියයි.

විශාල ගහනයක් පිළිබඳ නිගමනවලට එළඹීම සඳහා නියැදියක් අධ්‍යයනය කිරීම ප්‍රායෝගික ක්‍රමවේදයකි.

1.2 දත්ත මූලාශ්‍ර (Data Sources)

ප්‍රාථමික දත්ත (Primary Data): පර්යේෂකයා විසින්ම පළමු වරට රැස්කරගන්නා ලද දත්ත වේ. උදාහරණ ලෙස සමීක්ෂණ, නිරීක්ෂණ දැක්විය හැකිය.
ද්විතීයික දත්ත (Secondary Data): වෙනත් අයෙකු විසින් දැනටමත් රැස්කරන ලද දත්ත වේ. උදාහරණ ලෙස ප්‍රකාශිත වාර්තා, සඟරා දැක්විය හැකිය.

දත්ත එක්රැස් කළ පසු, විශ්ලේෂණය සඳහා සුදුසු ක්‍රමවේද තෝරා ගැනීමට ඒවා නිසි ලෙස වර්ගීකරණය කළ යුතුය.

--------------------------------------------------------------------------------

2. දත්ත වර්ගීකරණය (Data Classification)

දත්ත වර්ගීකරණය යනු විශ්ලේෂණය සඳහා නිවැරදි සංඛ්‍යාන මෙවලම් හඳුනා ගැනීමේ පළමු පියවරයි. දත්ත ප්‍රධාන වශයෙන් කොටස් දෙකකට බෙදිය හැකිය:

ගුණාත්මක දත්ත (Qualitative Data): වර්ගීකරණය කළ හැකි නමුත් සංඛ්‍යාත්මකව මැනිය නොහැකි ලක්ෂණ විස්තර කරන දත්ත වේ. උදාහරණ: ඇස්වල වර්ණය, ස්ත්‍රී පුරුෂ භාවය.
ප්‍රමාණාත්මක දත්ත (Quantitative Data): සංඛ්‍යාත්මකව මැනිය හැකි දත්ත වේ. උදාහරණ: උස, විභාග ලකුණු.

ප්‍රමාණාත්මක දත්ත තවදුරටත් කොටස් දෙකකට බෙදේ:

විවික්ත දත්ත (Discrete Data): ගණන් කළ හැකි, නිශ්චිත අගයන් පමණක් ගත හැකි දත්ත වේ. උදාහරණ: පවුලක සිටින දරුවන් ගණන.
සන්තතික දත්ත (Continuous Data): ලබා දී ඇති පරාසයක් තුළ ඕනෑම අගයක් ගත හැකි දත්ත වේ. උදාහරණ: ශරීරයේ බර.

විශාල දත්ත කට්ටල, විශේෂයෙන් ප්‍රමාණාත්මක දත්ත, සංවිධානය කර විශ්ලේෂණය කිරීමට සංඛ්‍යාත ව්‍යාප්ති (Frequency Distributions) භාවිතා කෙරේ.

--------------------------------------------------------------------------------

3. කේන්ද්‍රීය ප්‍රවණතාවයේ මිනුම් (Measures of Central Tendency)

කේන්ද්‍රීය ප්‍රවණතා මිනුම් මගින් දත්ත සමූහයක කේන්ද්‍රය හෝ සාමාන්‍ය අගය නියෝජනය කරන තනි අගයක් හඳුනා ගනී.

3.1 මධ්‍යන්‍යය (The Mean)

මධ්‍යන්‍යය යනු දත්ත සමූහයක සියලුම අගයන්ගේ එකතුව එම අගයන් ගණනින් බෙදූ විට ලැබෙන සාමාන්‍ය අගයයි. මෙය දත්තවල තුලන ලක්ෂ්‍යය (balancing point) ලෙසද හැඳින්වේ.

සමූහිත නොකළ දත්ත සඳහා (For Ungrouped Data): x̄ = Σx / n
- x̄ = නියැදි මධ්‍යන්‍යය
- Σx = දත්ත ලක්ෂ්‍යවල එකතුව
- n = දත්ත ලක්ෂ්‍ය ගණන
සමූහිත දත්ත සඳහා (For Grouped Data): x̄ = Σfx / Σf
- f = එක් එක් පන්තියේ සංඛ්‍යාතය
- x = පන්ති මධ්‍ය ලක්ෂ්‍යය

ගණනය කිරීම් සරල කර ගැනීම සඳහා අනුමාන මධ්‍යන්‍ය ක්‍රමය (Assumed Mean Method) x̄ = a + Σfd / Σf ද භාවිතා කළ හැක.

3.2 මධ්‍යස්ථය (The Median)

ආරෝහණ හෝ අවරෝහණ පිළිවෙළට සකස් කළ දත්ත සමූහයක මධ්‍යයේ පිහිටන අගය මධ්‍යස්ථය ලෙස හැඳින්වේ.

සමූහිත නොකළ දත්ත සඳහා:
- නිරීක්ෂණ ගණන (n) ඔත්තේ නම්, මධ්‍යස්ථය (n+1)/2 වන ස්ථානය වේ.
- නිරීක්ෂණ ගණන (n) ඉරට්ටේ නම්, මධ්‍යස්ථය යනු මධ්‍යයේ ඇති අගයන් දෙකෙහි සාමාන්‍යය වේ.
සමූහිත දත්ත සඳහා: Median = L + [(n/2 - C) / f] * i
- L = මධ්‍යස්ථ පන්තියේ පහළ සීමාව
- n = සමස්ත සංඛ්‍යාතය (Σf)
- C = මධ්‍යස්ථ පන්තියට පෙර පන්තීවල සමුච්චිත සංඛ්‍යාතය
- f = මධ්‍යස්ථ පන්තියේ සංඛ්‍යාතය
- i = පන්ති ප්‍රාන්තර පළල

ප්‍රධාන විශ්ලේෂණාත්මක කරුණ: මධ්‍යස්ථය, දත්ත කට්ටලයක ඇති අන්ත අගයයන්ගෙන් (outliers) මධ්‍යන්‍යයට වඩා අඩු බලපෑමකට ලක් වේ. එම නිසා, විෂම ව්‍යාප්තීන් සඳහා එය වඩාත් සුදුසු කේන්ද්‍රීය ප්‍රවණතා මිනුමකි. මෙයට හේතුව, විෂම ව්‍යාප්තියකදී මධ්‍යන්‍යය අන්ත අගයයන් දෙසට ඇදී යන අතර (6 වන කොටසේ පෙන්වා ඇති පරිදි), මධ්‍යස්ථය දත්තවල මධ්‍යම ස්ථානයෙහිම ස්ථාවරව පැවතීමයි.

3.3 මාතය (The Mode)

දත්ත සමූහයක වැඩිම වාර ගණනක් පුනරාවර්තනය වන අගය මාතය ලෙස හැඳින්වේ.

දත්ත කට්ටලයකට මාත එකකට වඩා (bimodal, multimodal) හෝ කිසිදු මාතයක් නොතිබිය හැකිය.
සමූහිත දත්ත සඳහා: Mode = L + [Δ1 / (Δ1 + Δ2)] * i
- L = මාත පන්තියේ පහළ සීමාව
- Δ1 = මාත පන්තියේ සංඛ්‍යාතය සහ ඊට පෙර පන්තියේ සංඛ්‍යාතය අතර වෙනස (fm - fm-1)
- Δ2 = මාත පන්තියේ සංඛ්‍යාතය සහ ඊට පසු පන්තියේ සංඛ්‍යාතය අතර වෙනස (fm - fm+1)
- i = පන්ති ප්‍රාන්තර පළල

දත්තවල කේන්ද්‍රය සොයා ගැනීමෙන් අනතුරුව, දත්ත ලක්ෂ්‍ය ව්‍යාප්තිය තුළ පිහිටන ආකාරය අවබෝධ කර ගැනීම ද වැදගත් වේ.

--------------------------------------------------------------------------------

4. ස්ථානීය මිනුම්: චතුර්ථක (Measures of Position: Quartiles)

ස්ථානීය මිනුම් මගින් ව්‍යාප්තියක් තුළ නිශ්චිත දත්ත ලක්ෂ්‍ය පිහිටා ඇති ස්ථානය විස්තර කරයි. චතුර්ථක යනු මේ සඳහා බහුලව භාවිතා වන මිනුමකි.

ආරෝහණ පිළිවෙළට සකස් කළ දත්ත කට්ටලයක් සමාන කොටස් හතරකට බෙදන ලක්ෂ්‍ය තුන චතුර්ථක (Quartiles) ලෙස හැඳින්වේ.
- Q1 - පළමු චතුර්ථකය: දත්ත වලින් 25% ක් මෙම අගයට වඩා අඩුය.
- Q2 - දෙවන චතුර්ථකය: දත්ත වලින් 50% ක් මෙම අගයට වඩා අඩුය (මෙය මධ්‍යස්ථයට සමාන වේ.)
- Q3 - තෙවන චතුර්ථකය: දත්ත වලින් 75% ක් මෙම අගයට වඩා අඩුය.
සමූහිත දත්ත සඳහා k-වන චතුර්ථකය සෙවීමේ පොදු සූත්‍රය: Qk = L + [(kn/4 - C) / f] * i
ප්‍රතිශතක (Percentiles) යනු දත්ත කට්ටලයක් සමාන කොටස් 100 කට බෙදන, චතුර්ථක සංකල්පයේම සාමාන්‍යකරණයකි.

චතුර්ථක මගින් දත්තවල පිහිටීම පෙන්වන අතර, ඒවා අතර ඇති දුර මගින් දත්ත කෙතරම් පැතිරී ඇත්දැයි හෙළිදරව් කරයි. මෙය අපව අපකිරණය යන මාතෘකාව වෙත යොමු කරයි.

--------------------------------------------------------------------------------

5. අපකිරණයේ මිනුම් (Measures of Dispersion)

අපකිරණයේ මිනුම් මගින් දත්ත සමූහයක් කෙතරම් පැතිරී හෝ විසිරී ඇත්දැයි ප්‍රමාණනය කරයි. මෙම මිනුම්, කේන්ද්‍රීය ප්‍රවණතා මිනුම් සඳහා ඉතා වැදගත් සන්දර්භයක් සපයයි.

5.1 පරාසය සහ අන්තඃ චතුර්ථක පරාසය (Range and IQR)

පරාසය (Range): දත්ත සමූහයක උපරිම සහ අවම අගයන් අතර වෙනසයි.
- සූත්‍රය: උපරිම අගය - අවම අගය
- මෙය අපකිරණය මැනීමේ සරලම ක්‍රමය වුවද, අන්ත අගයයන් (outliers) මගින් දැඩි ලෙස බලපෑමට ලක් වේ.
අන්තඃ චතුර්ථක පරාසය (Interquartile Range - IQR): තුන්වන චතුර්ථකය (Q3) සහ පළමු චතුර්ථකය (Q1) අතර වෙනසයි.
- සූත්‍රය: IQR = Q3 - Q1
- IQR මගින් දත්තවල මධ්‍ය 50% ක පැතිරීම මනිනු ලබන අතර, එය අන්ත අගයයන්ගේ බලපෑමට ඔරොත්තු දෙන බැවින් පරාසයට වඩා ශක්තිමත් අපකිරණ මිනුමක් ලෙස සැලකේ.

5.2 විචලතාව (Variance)

විචලතාව යනු එක් එක් දත්ත ලක්ෂ්‍යයේ සිට මධ්‍යන්‍යයට ඇති අපගමනයන්ගේ වර්ගයන්ගේ මධ්‍යන්‍යයයි.

සමූහිත නොකළ දත්ත සඳහා (For Ungrouped Data):
- ගහන විචලතාව (Population Variance): σ² = Σ(x - μ)² / N
  - μ = ගහන මධ්‍යන්‍යය
  - N = ගහනයේ ප්‍රමාණය
- නියැදි විචලතාව (Sample Variance): s² = Σ(x - x̄)² / (n - 1)
සමූහිත දත්ත සඳහා (For Grouped Data):
- σ² = [Σf(x - x̄)²] / Σf
- ගණනය සඳහා පහසු සූත්‍රය: σ² = [Σfx² / Σf] - x̄²

5.3 සම්මත අපගමනය (Standard Deviation)

සම්මත අපගමනය යනු විචලතාවයේ ධන වර්ගමූලයයි (σ = √Variance).

මෙය අපකිරණය මැනීමේ වඩාත්ම වැදගත් සහ බහුලවම භාවිතා වන මිනුම වේ.
එය මගින් දත්ත ලක්ෂ්‍ය, මධ්‍යන්‍යයේ සිට සාමාන්‍යයෙන් කොපමණ දුරකින් පැතිරී ඇත්දැයි මනිනු ලබයි. කුඩා සම්මත අපගමනයකින් දත්ත මධ්‍යන්‍යයට ආසන්නව ඇති බවත්, විශාල සම්මත අපගමනයකින් දත්ත බොහෝ සෙයින් පැතිරී ඇති බවත් පෙන්නුම් කරයි.

දත්තවල කේන්ද්‍රය සහ පැතිරීම හැරුණු විට, දත්ත ව්‍යාප්තියේ හැඩය ද විශ්ලේෂණයේදී වැදගත් ලක්ෂණයකි.

--------------------------------------------------------------------------------

6. ව්‍යාප්තියේ හැඩය: විෂමතාව (Skewness)

විෂමතාව යනු සම්භාවිතා ව්‍යාප්තියක මධ්‍යන්‍යය වටා ඇති අසමමිතිය මැනීමේ මිනුමකි.

සමමිතික ව්‍යාප්තිය (Symmetrical Distribution): ව්‍යාප්තිය සමබර වේ. වම් සහ දකුණු පැති දර්පණ ප්‍රතිබිම්බ මෙනි.
- සම්බන්ධතාවය: මධ්‍යන්‍යය = මධ්‍යස්ථය = මාතය
ධන විෂමතාව (Positively Skewed): ව්‍යාප්තියේ දකුණු පස වලිගය දිගු වේ.
- සම්බන්ධතාවය: මාතය < මධ්‍යස්ථය < මධ්‍යන්‍යය
සෘණ විෂමතාව (Negatively Skewed): ව්‍යාප්තියේ වම් පස වලිගය දිගු වේ.
- සම්බන්ධතාවය: මධ්‍යන්‍යය < මධ්‍යස්ථය < මාතය
පියර්සන්ගේ පළමු විෂමතා සංගුණකය: Sk = (මධ්‍යන්‍යය - මාතය) / සම්මත අපගමනය හෝ Sk = (x̄ - Mode) / σ

--------------------------------------------------------------------------------

7. සංයුක්ත සංඛ්‍යාන මිනුම් (Combined Statistical Measures)

දත්ත කට්ටල දෙකක් හෝ වැඩි ගණනක් ඒකාබද්ධ කළ විට, සමස්ත සංඛ්‍යාන මිනුම් ගණනය කිරීම බොහෝ විට අවශ්‍ය වේ.

7.1 සංයුක්ත මධ්‍යන්‍යය (Combined Mean)

කණ්ඩායම් දෙකක් හෝ වැඩි ගණනක් ඒකාබද්ධ කළ විට, එම සියලුම නියැදිවල සමස්ත මධ්‍යන්‍යය සෙවීම සඳහා මෙය භාවිතා කෙරේ.

කණ්ඩායම් දෙකක් සඳහා සූත්‍රය: x̄c = (n1*x̄1 + n2*x̄2) / (n1 + n2)
- n1, n2 = පළමු සහ දෙවන කාණ්ඩවල දත්ත ලක්ෂ්‍ය ගණන
- x̄1, x̄2 = පළමු සහ දෙවන කාණ්ඩවල මධ්‍යන්‍යයන්
- x̄c = සංයුක්ත මධ්‍යන්‍යය

උදාහරණ ගණනය කිරීම:

A පන්තියේ සිසුන් 10 දෙනෙකුගේ සාමාන්‍ය ලකුණු 75ක් වන අතර, B පන්තියේ සිසුන් 15 දෙනෙකුගේ සාමාන්‍ය ලකුණු 80කි. පන්ති දෙකම එකට ගත් විට සාමාන්‍ය ලකුණු කොපමණද?

x̄c = (10 * 75 + 15 * 80) / (10 + 15) x̄c = (750 + 1200) / 25 x̄c = 1950 / 25 x̄c = 78

පිළිතුර: සිසුන් 25 දෙනාගේම සාමාන්‍ය ලකුණු 78කි.

7.2 සංයුක්ත විචලතාව (Combined Variance)

කණ්ඩායම් දෙකක් හෝ වැඩි ගණනක් ඒකාබද්ධ කළ විට, සමස්ත දත්ත සමූහයේ විචලතාව ගණනය කිරීම සඳහා මෙම සූත්‍රය භාවිතා කරයි.

සූත්‍රය: σ²c = (n1*σ₁² + n2*σ₂² + n1*d₁² + n2*d₂²) / (n1 + n2)
- n1, n2: එක් එක් කාණ්ඩයේ ප්‍රමාණය
- σ₁², σ₂²: එක් එක් කාණ්ඩයේ විචලතාව
- d₁ = x̄₁ - x̄c (පළමු කාණ්ඩයේ මධ්‍යන්‍යය සහ සංයුක්ත මධ්‍යන්‍යය අතර වෙනස)
- d₂ = x̄₂ - x̄c (දෙවන කාණ්ඩයේ මධ්‍යන්‍යය සහ සංයුක්ත මධ්‍යන්‍යය අතර වෙනස)

මෙම සූත්‍රය මගින් කාණ්ඩවල අභ්‍යන්තර විචලතාව (within-group variance) සහ කාණ්ඩ අතර විචලතාව (between-group variance) යන දෙකම සැලකිල්ලට ගනී.

--------------------------------------------------------------------------------

8. සිද්ධි අධ්‍යයනය: සම්පූර්ණ දත්ත විශ්ලේෂණයක්

(Case Study: A Complete Data Analysis)

මෙම කොටස මගින්, මෙතෙක් සාකච්ඡා කළ සංකල්ප සැබෑ දත්ත කට්ටලයකට යොදා ගනිමින් අර්ථවත් නිගමන ලබා ගන්නා ආකාරය නිරූපණය කරයි.

සමූහිත සංඛ්‍යාත ව්‍යාප්තිය

පන්ති ප්‍රාන්තරය	සංඛ්‍යාතය (f)
10 - 20	5
20 - 30	8
30 - 40	12
40 - 50	7
50 - 60	4

විශ්ලේෂණයේ ප්‍රතිඵල
- මධ්‍යන්‍යය (Mean): 34.7
- මධ්‍යස්ථය (Median): 34.6
- මාතය (Mode): 35.7
- සම්මත අපගමනය (Std. Dev.): 12.1
- විෂමතා සංගුණකය (Skewness Coeff.): -0.08
නිගමනය මෙම දත්තවල කේන්ද්‍රීය අගය 34.7 පමණ වන අතර, දත්ත 12.1 ක සම්මත අපගමනයකින් පැතිරී ඇත. විෂමතා සංගුණකය ඉතා කුඩා අගයක් ගන්නා බැවින්, ව්‍යාප්තිය ඉතා සුළු සෘණ විෂමතාවක් පෙන්වයි.

--------------------------------------------------------------------------------

9. සාරාංශය සහ ප්‍රධාන සූත්‍ර (Summary and Key Formulas)

මෙම කොටසෙහි, මෙම මාර්ගෝපදේශය පුරා ආවරණය කරන ලද සමූහිත දත්ත සඳහා වන වැදගත්ම සූත්‍ර ඉක්මන් පරිශීලනය සඳහා වගුවක දක්වා ඇත.

මිනුම (Measure)	සමූහිත දත්ත සඳහා ප්‍රධාන සූත්‍රය (Key Formula for Grouped Data)
මධ්‍යන්‍යය (Mean)	`x̄ = Σfx / Σf`
මධ්‍යස්ථය (Median)	`L + [(n/2 - C) / f] * i`
මාතය (Mode)	`L + [Δ1 / (Δ1 + Δ2)] * i`
විචලතාව (Variance)	`σ² = [Σfx² / Σf] - x̄²`
සම්මත අපගමනය (Std. Dev.)	`σ = √Variance`
අන්තඃ චතුර්ථක පරාසය (IQR)	`IQR = Q3 - Q1`
විෂමතාව (Skewness)	`Sk = (Mean - Mode) / Std. Dev.`

සංඛ්‍යානය යනු අමු දත්ත, අර්ථවත් තීරණ ගැනීමේ හැකියාවක් සහ ක්‍රියාකාරී දැනුමක් බවට පරිවර්තනය කිරීමේ විද්‍යාවයි. මෙම මෙවලම් කට්ටලය එම පරිවර්තනය සඳහා ඔබේ පදනමයි.

සංඛ්‍යානයේදී දත්ත විශ්ලේෂණය සඳහා අත්‍යවශ්‍ය මූලික කරුණු පිළිබඳ කෙටි සටහන