Статистик дата бол эдийн засагч хүний хамгийн том мэдээлэлийн суваг билээ. Статистик мэдээлэлийн тусламжтайгаар бид улс орны эдийн засгийн өнөөгийн байдал бөгөөд ирээдүйн төлөвөөс авхуулаад бизнесийн төлөвлөгөө, борлуулалт, хэрэглэгчидийн төлөв байдал гээд л тоо томшгүй олон зүйлсийг хийж шинжилж судалдаг. Хэдий асар их тустай боловч, статистик гэдэг толгой эргүүлсэн төвөгтэй эд бөгөөд шинжлэх явцад ч юумуу эсвэл арга барилын хувьд бяцхан алдаа гархад л тухайн статистик мэдээлэл ямар ч үр дүнгүй, төөрөгдүүлсэн худал мэдээлэлийг өгөх аюултай. Зарим эдийн засагчид статистикийн тусламжтайгаар өөрийн хүссэн үр дүнгээ гаргаж үзүүлэх боломжтой гэж ч үздэг. Энэ нь статистик мэдээ мэдээлэл, дата-д итгэх итгэлийг ихээр унагадаг бөгөөд статистик худал ярьдаг байх нь гэсэн бодолыг хүмүүст суулгаж өгөх нь бий. Тэгвэл статистик хэрхэн худал буюу үнэн ярьдаг болохыг авч үзье.
1. Дундаж (Арифметик дундаж, медиан, моод)
Арифметик дундаж : Бүхий өгөгдсөн түүврийн (1,2,134,65,87 гэх мэт өгөгдсөн бүх тоонууд) нийлбэрийг гишүүдийн тоонд хуваахад гарах ногдвор.
Медиан дундаж : Түүвэрт эгнээний голд байрлах гишүүн. Жишээ нь: (2,5,4,9,10,100,56) гэсэн түүвэр өгөгдсөн байхад үүнийг өсөх эрэмбээр засварлан бичээд (2, 4, 5, 9, 10,56, 100) шинээр үүссэн дараалалын голд байрлах гишүүн нь медиан болно.
Моод дундаж : Түүвэрт хамгийн их давтагдах гишүүн.
1. Өдөр тутмын амьдралд дундаж гэдэг үгийг ихэнх хүмүүс аливаа зүйлсийн дунд нь татах улаан шугам эсвэл “ихэнх хүмүүс” гэж ойлгодог. Статистик судалгааны явцад алдаатай сонгосон дунджаас болоод үр дүн маань ямар ч ач холбогдолгүй болох аюултай. Өгөгдсөн бүс нутаг дахь хүмүүсийн дундаж орлогыг тооцоолох боллоо гэж бодоё. Арифметик дундажын арга хэрэглэж бүх өгөгдсөн орлогуудыг нэмээд гишүүдийнх нь тоонд хувааж дундажыг олж болох боловч тухайн бүс нутагт хэсэг хүмүүс нь маш баян хэсэг хүмүүс нь ядуу байгаа тохиолдолд арифметик дундаж ач холбогдолгүй болно. Жишээ нь (1,1,1,1,1,1,1000) гэсэн түүвэрийн арифметик дундаж нь 143.7 бөгөөд нийт түүвэрийн 85хувь нь 1 байхад дундаж нь 100-с дээш гарч байгаа нь ач холбогдолын хувьд утгагүй юм. Энэхүү дундаж нь ихэнх хүмүүсийг илэрхийлж огт чадахгүй байгааг энэхүү жишээнээс тодхон харж болно. Иймээс орлогын дундаж тооцож байхад медиан нь хамгийн оновчтой сонголт байдаг.
2. Алдаатай түүвэр (Biased sampling)
Түүврийн биас - Түүвэрлэлтийн санамсаргүй байх зарчмыг зөрчин, эх олонлогоос хазайж, сонирхож байгаа шинж чанар бүхий нэгжүүдийг судалгаанд илүүтэй хамруулах
Хамгийн энгийн жишээ бол эр эм хүйсийн судалгаа байдаг. Нийт эх олонлог буюу бүхий л эрэгтэй эмэгтэй хүмүүсийн харьцаа 50%:50% байдаг гэж бодое. Тэгвэл судалгаа авсан түүвэрт чинь 80хувь нь эмэгтэй 20 хувь нь эрэгтэй бол түүврийн биас буюу алдаа үүсч байгаа юм. Учир нь эрэгтэй хүмүүсийн санал хангалттай биш тул сүүлчийн үр дүн чинь алдаатай гарч байна.
3. Бага хэмжээний түүвэр
“Хэрэглэгчидийн 50-с дээш хувь нь үйлчилгээнд сэтгэл хангалуун бус байна” гэсэн тооцоолол маш муу сонсогдож болох хэдий ч энэхүү судалгааг авсан түүвэрийн тоо буюу санал асуулганд оролцсон хүмүүсийн тоо 50 бол энэ нь хангалттай биш бөгөөд нийт хэрэглэгчидийн үзэл бодолыг яагаад ч илэрхийлж чадахгүй юм.
4. График дүрслэлийн тусламжтайгаар сэтгэгдэл үүсгэх нь
Энэхүү 2 график аль аль нэг ижил зүйлийг харуулж байгаа хэдий ч эхний график илүү сүржин бөгөөд илүү ихээр сэтгэгдэл төрүүлж байна. У тэнхлэгтэй ухаалагаар буюу зальтайгаар ажилсанаар энгийн нэгэн график-г сүржин, ач холбогдол ихтэйгээр харагдуулж болдог. Хальт хараад өнгөрхөд огцом өсөлт юм шиг харагдаж болох ч У тэнхлэг дээрх тоонуудыг анхаарлаа хандуулан хараад үзэх нь дээр шүү.
5. Корреляц буюу харилцан хамаарал нь шалтгаан биш
Жишээ нь судалгааны үр дүнгээр ногоон хоолтонгууд мах иддэг хүмүүсээс илүү орлоготой гэсэн үр дүн гарсан гэж үзье. Энэ нь чамайг ногоон хоолтон болсноор илүү орлоготой болж чадна гэсэн үг биш юм. Далайн дээрэмчидийн тоо дэлхийн дулааралтай эерэг хамааралтай гэвэл итгэх үү. Гэвч дэлхийн дулааралыг бууруулахын тулд далайн дээрэмчидийн тоог нэмэх нь жинхэнэ солиорол болох биз.
Эндээс харахад эерэг хамааралтай гэсэн үг болгонд итгэх аргагүй болж байгаа юм. Корреляц заавал шалтгааныг илэрхийлэхгүй.
Эцэст нь дүгнэхэд, статистик арга барил болон дата худал хэлнэ гэж байхгүй бөгөөд зөвхөн буруу тайлбарлалт, буруу арга барилын сонголт, алдаатай санал хураалт гэх мэт зүйлсээс болж статистик судалгааг худал мэдээлэлийг бусдад түгээж болно. Үүнийг санаатай болон санамсаргүйгээр хийж болох тул статистик судалгааг уншин танилцаж буй та анхаарлаа сайн хандуулж байж худал мэдээлэлд төөрөгдөхгүй үлдэж чадна.
Г.Дөлгөөн
Data statistic-n talaar ulam ihiig medii gvel ymar nom zgr ve? Ta ndd ymar negen nom sanal bolgooch. Bayarlalaa.
ReplyDeleteСайн уу? Академик сурах бичиг гэвэл маш олон сонголт бий. Бүх сурах бичиг ерөнхий мэдлэгийг адил тэгш олгож чадна. Гэхдээ Introduction to Statistical Learning by Gareth James, Daniela Witten гэх номыг зөвлөе. Харин арай илүү сонирхолтой байдалаар буюу амьдрал дээрх жишээтэй илүү практик талыг хамарсан, элдэв томъёо нтргүй гэвэл Freakonomics (Монгол орчуулга байдаг санагдана), Naked Statistics, How to lie with Statistics зэрэг номуудыг санал болгож байна.
DeletePS. Надтай миний ФБ пайж-р юмуу Инста аккоунт-р холбогдож илүү зөвөлгөө авч болно.
That pirate part was hilarious..alomost laughed my head off. Good luck :)
ReplyDelete