2.3.1.1 ትልቅ

ትልቅ የውሂብ ፍጻሜ መንገድ ነው; እነርሱ ራሳቸው ወደ ውስጥ ግን መጨረሻው ገና ነው.

ትልቅ ውሂብ ሦስት ጥሩ ባሕርያት መካከል የመጀመሪያው በጣም ተብራርቷል ነው: እነዚህ ትልቅ ውሂብ ናቸው. ብዙ ሰዎች, ሰው በአንድ መረጃ ብዙ, ወይም ጊዜ ላይ ብዙ ምልከታዎች: እነዚህ የመረጃ ምንጮች ሦስት የተለያዩ መንገዶች ውስጥ ትልቅ ሊሆን ይችላል. አንድ ትልቅ የውሂብ ስብስብ ስላለን: ብርቅ ክስተቶች ማጥናት ትንሽ ልዩነት ለመለየት, እና ተጨባጭ ውሂብ በሲጋራና ግምቶች በማድረግ, በጥናት ላይ በመለኪያ የተለያያ አንዳንድ የተወሰኑ አይነቶች ያስችላቸዋል. እሱም ደግሞ sloppiness አንድ የተወሰነ አይነት ሊያመራ ይመስላል.

መጠን በጣም ጠቃሚ ነው የሚጠቅም የመጀመሪያው ነገር የተወሰኑ ቡድኖች ለ ግምቶች ለማድረግ አማካይ ባሻገር እየተጓዘ ነው. ለምሳሌ ያህል, ጌሪ ንጉሥ, ጄኒፈር ፓን, እና Molly ሮበርትስ (2013) በቻይና ማህበራዊ ሚዲያ ልጥፎች በመንግሥት ሳንሱር እንደሚሆን ይሁንታን ለካ. በራሱ ስረዛ ይህ በአማካይ እድል መንግስት አንዳንድ ልጥፎች እንጂ ሌሎችን ሳንሱር ለምን እንደሆነ ለመረዳት በጣም ጠቃሚ ነው. ያላቸውን የውሂብ 11 ሚሊዮን ልጥፎች የተካተቱ ነገር ግን: ንጉሥ እና ባልደረቦቻቸው ደግሞ 85 የተለያዩ ምድቦች (በቤጂንግ ለምሳሌ, የብልግና ምስሎችን, ቲቤት, እና ትራፊክ) ላይ ልጥፎች ሳንሱር እድል ለማግኘት ግምት አስገኝቶ ነበር. በተለያዩ ምድቦች ውስጥ ልጥፎች ሳንሱር እድል በማወዳደር እነሱ መንግስት ልጥፎች የተወሰኑ አይነት ሳንሱር እንዴት እና ለምን ተጨማሪ መረዳት ችለናል. 11 ሺህ ልጥፎች (ይልቅ ከ 11 ሚሊዮን ልጥፎች) ጋር, እነዚህ ምድብ-ተኮር ግምቶች ማምረት ችለዋል ነበር.

ሁለተኛ, መጠን ብርቅ ክስተቶች በማጥናት ነው በጣም ጠቃሚ ነው. ለምሳሌ ያህል, Goel እና ባልደረቦቻቸው (2015) ትዊትሮች በቫይረስ መሄድ የሚችሉ የተለያዩ መንገዶች ለማጥናት ፈለገች. ዳግም ትዊቶች ትልቅ የሚጥለቀለቅ እጅግ ብርቅ-ስለ አንድ ሰው ውስጥ በመሆናቸው ምክንያት 3,000-እነርሱ ትንተና በቂ ትልቅ የሚጥለቀለቅ ለማግኘት ሲሉ ከአንድ ቢሊዮን በላይ ትዊቶች ማጥናት ያስፈልጋል.

ሦስተኛ, ትልቅ የውሂብ ትንሽ ልዩነት መለየት ተመራማሪዎች ያንቁ. እንዲያውም, ኢንዱስትሪ ውስጥ ትልቅ ውሂብ ላይ ትኩረት ያህል እነዚህን ትናንሽ ልዩነቶች ነው: አስተማማኝ ተጨማሪ ገቢ በሚሊዮን የሚቆጠር ዶላር ወደ መተርጎም ይችላሉ ማስታወቂያ ላይ 1% እና 1.1% ጠቅታ-በኩል መጠን መካከል ያለውን ልዩነት ማግኘት እየከበደን. አንዳንድ ሳይንሳዊ ቅንብሮች ውስጥ, እንዲህ ያሉ ትናንሽ ልዩነቶች (እነርሱ ስታቲስቲክሳዊ ጠቃሚ የሆኑ ናቸው እንኳ ቢሆን) አስፈላጊ የተለየ ላይሆን ይችላል. በጥቅሉ የታዩ ጊዜ ግን, አንዳንድ የመምሪያ ቅንብሮችን ውስጥ, እንዲህ ያሉ ትናንሽ ልዩነቶች አስፈላጊ ሊሆን ይችላል. ለምሳሌ ያህል, ሁለት የሕዝብ ጤና ጣልቃ እና አንድ ከዚያም ተጨማሪ በሺህ የሚቆጠሩ ሰዎችን ሕይወት የማዳን ሊቀርቡ ይችላሉ ይበልጥ ውጤታማ ጣልቃ ገብነት በመቀየር, በትንሹ ይበልጥ ውጤታማ በሌላ ይልቅ በዚያ ከሆነ ነው አሉ.

በመጨረሻም, ትልቅ ውሂብ ስብስቦች እጅግ ተጨባጭ ውሂብ በሲጋራና ግምቶች የማድረግ ችሎታችንን ይጨምራል. ትልቅ የውሂብ በመሠረታዊነት, ተጨባጭ ውሂብ በሲጋራና አባባሉ በማድረግ የሚዛመዱ እና የተፈጥሮ ሙከራዎች-ሁለት ዘዴዎች ተመራማሪዎች ተጨባጭ ጀምሮ በሲጋራና የይገባኛል ለማድረግ አዳብረዋል ውሂብ-ሁለቱም እጅግ ትልቅ የውሂብ ጥቅም ጋር ላሉት ችግሮች መቀየር አይደለም ቢሆንም. እኔ ማስረዳት እና ምርምር ስትራቴጂዎች ይገልጻሉ ጊዜ በዚህ ምዕራፍ ላይ በኋላ በዝርዝር ይህን የይገባኛል ጥያቄ በምሳሌ እንመለከታለን.

bigness በአጠቃላይ በትክክል ጥቅም ላይ ጊዜ ጥሩ ንብረት ቢሆንም, እኔ bigness በተለምዶ አንድ ፅንሰ ስህተት የሚወስደው አስተውያለሁ. በሆነ ምክንያት, bigness ያላቸውን ውሂብ የመነጨ እንዴት ችላ ተመራማሪዎች ለመምራት ይመስላል. Bigness የዘፈቀደ ስህተት መጨነቅ አስፈላጊ ለመቀነስ የሚያደርገው ቢሆንም, እውን ግን ስልታዊ ስህተቶች መጨነቅ አስፈላጊ: እኔ ከዚህ በታች ተጨማሪ ውስጥ እናብራራለን ዘንድ ስህተቶች መካከል አይነት ውሂብ የፈጠረ የሚሰበሰበው እንዴት ውስጥ አድሏዊነት ሊነሱ ይጨምራል. ትንሽ የውሂብ ስብስብ ውስጥ, የዘፈቀደ ስህተት እና ስልታዊ ስህተት ሁለቱም አስፈላጊ ሊሆን ይችላል, ነገር ግን አንድ ትልቅ የውሂብ ስብስብ በዘፈቀደ ስህተት ውስጥ ወዲያውኑ አማካይ እና ስልታዊ ስህተት መፈጸም የተለመደ ሊሆን ይችላል ነው. የተሳሳተ ነገር አንድ ትክክለኛ ግምት ለማግኘት ያላቸውን ትልቅ የውሂብ በመጠቀም ያበቃል ስልታዊ ስህተት ማሰብ ለማይችሉ ተመራማሪዎች; እነሱ በትክክል ትክክል ይሆናል (McFarland and McFarland 2015) .