2.2 ትልቅ ውሂብ

ትላልቅ መረጃዎች ከተመረጡት ውጭ ለሚደረጉ ዓላማዎች በኩባንያዎች እና መንግስታት የተሰበሰቡ ናቸው. ስለዚህ ለምርምር ይህን መረጃ መጠቀም በድጋሚ ማስተካከል ይጠይቃል.

ብዙ ሰዎች በዲጂታል ዘመን ማህበራዊ ምርምርን የሚያገኙበት የመጀመሪያ መንገድ ትልቅ ትልቅ ተብሎ የሚጠራው ነው. የዚህን ቃል ጠቀሜታ ቢኖረውም, ትልቅ ውሂብ ምን እንደሆነ ሁሉ መግባባት የላቸውም. ሆኖም ግን በትልልቅ መረጃዎች ውስጥ በጣም የተለመዱት መግለጫዎች "3 ቪክስ" ላይ ያተኩራሉ, ጥራዝ, ልዩነት, እና ቮልታ. በእርግጠኝነት, ብዙ ቅርፀቶች, በተለያዩ ቅርፀቶች ውስጥ, እና በየጊዜው እየተፈጠረ ነው. አንዳንድ የከፍተኛ ውሂብ አድናቂዎች እንደ "Veracity" እና "Value" ያሉ ሌሎች "Vs" ይጨምራሉ ነገር ግን አንዳንድ ተቺዎች ቫክስ እና ቫዩሽንን የመሳሰሉትን ያካትታሉ. ከሶስት ቪስ (ወይም ከ 5 ቪስ ወይም ከ 7 "ቪ ሴ") ይልቅ ለህብረተሰቡ ምርምር ዓላማ, ለመጀመር ጥሩ ቦታ የ 5 "Ws" ይመስለኛል: ማን, ምን, የት, መቼ , እና ለምን. በእርግጥ, በትልቅ የውሂብ ምንጮች የተፇጠሩ ተግዲሮቶች እና እዴልች አንዴ "ደብሊዩ" ከሚከተለት ሏገቦች አንደ ነው የሚመስሇው: ለምን.

በአሮጌው ዕድሜ ውስጥ, ለማህበራዊ ምርምር ጥቅም ላይ የዋሉ አብዛኛዎቹ መረጃዎች ለጥናት ጥናት ዓላማ ሲባል የተፈጠሩ ናቸው. በዲጂታል ዘመን ግን, እንደ ምርቶችን ማቅረብ, ፍጆታ ማመንጨት እና ሕግ ማውጣት የመሳሰሉ ለፍለጋ ውጤቶች ሲባል በኩባንያዎች እና መንግስታት በርካታ መረጃዎችን እየተፈጠረ ነው. የፈጠራ ሰዎች, ይሁን እንጂ, አንተ ምርምር ይህንን የኮርፖሬት እና የመንግስት ውሂብ repurpose እንደሚችል ተገንዝቦ ነበር. ስነ-ጥበብን ለመፍጠር አንድ የተገኘ ነገርን በድጋሚ ሲያስተካክለው, ሳይንቲስቶች በአሁኑ ጊዜ ምርምርን ለመፍጠር የተገኘ መረጃን በድጋሚ ማስተካከል ይችላሉ.

ምንም እንኳን በድጋሚ መልሶ ለመጠገን ትልቅ እድሎች ቢኖሩም ለምርመራ ተመርተው ያልታወቁ መረጃዎችን በመጠቀም አዲስ ፈተናዎችን ያመጣል. ለምሳሌ ያህል እንደ ትዊተር ያሉ ማህበራዊ ሚዲያ አገልግሎትን ለምሳሌ እንደ አጠቃላይ ማህበራዊ ጥናት የመሳሰሉ የተለመዱ የሕዝብ አስተያየት ዳሰሳዎችን ያወዳድሩ. ትዊተር ዋና አላማዎች ለተጠቃሚዎቹ አንድ አገልግሎት መስጠት እና ትርፍ ለማቅረብ ነው. በሌላ በኩል የጄኔራል ማህበራዊ ዳሰሳ ጥናት ለህብረተሰቡ ምርምር በተለይም ለህዝብ አስተያየት ምርምር አጠቃላይ ዓላማን በማዘጋጀት ላይ ያተኩራል. ይህ የግብ ልዩነት ማለት በትዊተር የተፈጠረ እና በአጠቃላይ ማህበራዊ ጥናት አማካይነት የተፈጠረ መረጃ የተለያዩ ሀብቶች ይኖራቸዋል, ምንም እንኳን ሁለቱም የህዝብ አስተያየቶችን ለማጥናት ጥቅም ላይ ሊውሉ ይችላሉ. ትዊተር የጄኔራል ማህበራዊ መጠይቅ ሊጣራ በማይችለው መጠንና ፍጥነት ይሠራል, ነገር ግን, እንደ አጠቃላይ ማህበራዊ ዳሰሳ ጥናት ሳይሆን Twitter ተጠቃሚዎችን በጥንቃቄ አይመርጥም እና በጊዜ ሂደት ንፅፅር ለመጠበቅ ጠንክሮ የማይሰራ ነው. እነዚህ ሁለት የውሂብ ምንጮች በጣም የተለያዩ ስለነበሩ አጠቃላይ የሶሻል ማጠቃለያ ከ Twitter ወይም በተቃራኒ የተሻለ ነው ለማለት ምንም ስህተት የለውም. በየሰዓቱ ዓለም አቀፍ ስሜት (ለምሳሌ, Golder and Macy (2011) ), Twitter የተሻለ ነው. በሌላ በኩል ደግሞ በዩናይትድ ስቴትስ ውስጥ የአመለካከት ለውጥ ( DiMaggio, Evans, and Bryson (1996) (ለምሳሌ, DiMaggio, Evans, and Bryson (1996) ) ውስጥ የረጅም ጊዜ ለውጦችን ለመለየት ከፈለጉ አጠቃላይ የሶሻል ማጠቃለያ ምርጡ ምርጫ ነው. በአብዛኛው, ትላልቅ የውሂብ ምንጮች ከሌሎች የመረጃ አይነቶች ይልቅ የተሻለ ወይም የከፋ እንደሆነ ለመከራከር ከመሞከር ይልቅ ይህ ምዕራፍ የትኞቹ ዓይነት የምርምር ጥያቄዎች ትልቅ የውሂብ ምንጮች ማራኪ ባህሪያት እና ለምን አይነት ጥያቄዎች ሊሆኑ እንደማይችሉ ምቹ.

ስለ ትላልቅ የመረጃ ምንጮችን ስናስብ ብዙ ተመራማሪዎች ወዲያውኑ እንደ የፍለጋ መዝገቦች እና ማህበራዊ ሚዲያ ልጥፎች ባሉ ኩባንያዎች የተሰሩ እና ሰብሰባዎችን በሚሰበስቡት የመስመር ላይ ውሂብ ላይ ያተኩራሉ. ይሁን እንጂ, ይህ ጠባብ የትኩረት ትኩረት ሁለት ሌሎች አስፈላጊ የትኩረት መረጃዎችን ይተካል. መጀመሪያ, ከጊዜ ወደጊዜ ኮርፖሬት ትልቅ የውሂብ ምንጮች ከህንድ ሰብሎች ውስጥ ናቸው. ለምሳሌ, በዚህ ምእራፍ ውስጥ የአንድ ሰራተኛ ምርታማነት በእኩዮቿ ምርታማነት ላይ ተጽዕኖ ስለሚያሳድርበት የሱፐር ማርኬት ቼክ (ዳይሬክተርስ) መረጃን ስለማሳወቅ አንድ ጥናት እነግርዎታለን (Mas and Moretti 2009) . ከዚያ በኋላ (Blumenstock, Cadamuro, and On 2015) ከሞባይል ስልኮች (Blumenstock, Cadamuro, and On 2015) የመደወያውን የመረጃ መዝገቦችን (Blumenstock, Cadamuro, and On 2015) (Allcott 2015) የተሰሩ የሂሳብ ደረሰኝ መረጃዎችን (Allcott 2015) . እነዚህ ምሳሌዎች እንደሚያሳዩት የተዋሀዱ ትልቅ የውሂብ ምንጮች ከመስመር ላይ ባህሪያት በላይ ናቸው.

በኦንላይን ባህሪ ላይ በጠባብ ላይ የተተኮረ ትልቅ ሁለተኛ የትልቅ ውሂብ ምንጭ, መንግስታት የተፈጠረ ውሂብ ነው. የመንግሥት አስተዳደራዊ መዝገቦችን የሚጠራው እነዚህ የመንግስት መረጃዎች እንደ የግብር መዝገቦች, የትምህርት ቤት መዝገቦች እና የስታስቲክስ ስታትስቲክስ መዝገቦችን (ለምሳሌ የልደት እና የሞቱ ምዝገባዎች) ያካትታሉ. አንዳንድ መንግስታት እንደዚህ ዓይነት መረጃዎችን በአንዳንድ አጋጣሚዎች በመቶዎች ለሚቆጠሩ ዓመታት ሲፈጥሩ ኖረዋል, ማህበራዊ ሳይንቲስቶች ማህበራዊ ሳይንቲስቶች እስካሉ ድረስ ለረጅም ጊዜ ጥቅም ላይ ውለዋል. ነገር ግን የተቀየረው ነገር አሃዛዊነት (ዲጂታል) መሆኑ ነው, ይህም መንግሥታት መረጃን ለመሰብሰብ, ለማስተላለፍ, ለማከማቸት እና ለመተንተን በጣም ቀላል እንዲሆን አድርጎታል. ለምሳሌ, በዚህ ምእራፍ ውስጥ ለስራው ምጣኔ ሃብታዊ (Farber 2015) መሠረታዊ ክርክር ለመከራከር ስለ የኒው ዮርክ ከተማ የመንግስት ዲጂታል ታክሲ ሜትሮች መረጃን ስለማሻሻል ጥናት ላሳውቅዎት (Farber 2015) . ከዚያም በሚቀጥሉት ምእራፎች ውስጥ እንዴት አንድ የመንግስት ጥንታዊ የድምጽ አሰጣጥ መዛግብት እንዴት (Ansolabehere and Hersh 2012) እና አንድ ሙከራ (Bond et al. 2012) .

እኔ እንደማስበው ከትላልቅ የውሂብ ምንጮች ለመማር ማስተማር አስፈላጊ ነው, ስለዚህ ስለ ትልቅ የውሂብ ምንጮች (ክፍል 2.3) ባህሪያት ከመነጋገር በፊት እና በጥናት (ክፍል 2.4) እንዴት ጥቅም ላይ ሊውሉ እንደሚችሉ, በአጠቃላይ ሁለት የመፍትሄ ሃሳቦችን ለማቅረብ. በመጀመሪያ, "በተገኘው" መረጃ እና "በተነደፈው" ውሂብ መካከል የተመሰረተውን ንፅፅር ለማሰብ ሊፈተን ይችላል. ያ በጣም ቀርቧል, ግን ትክክል አይደለም. ምንም እንኳን ከ ተመራማሪዎች እይታ አንጻር ትላልቅ የውሂብ ምንጮች "ተገኝተዋል" ቢሉም, የሰማይ ውጫዊ አያውቁም. በተቃራኒው, ተመራማሪዎች "የተገኙ" የመረጃ ምንጮች የተዘጋጁት በአንድ ሰው ለተወሰነ ዓላማ ነው. "የተገኘ" ውሂብ አንድ ሰው ስለተቀረጸ, ስለ ሰዎች እና ሂደቶችዎን የፈጠሩት ሂደቶች በተቻለ መጠን እርስዎ እንዲሞክሩ እሞክራለሁ. ሁለተኛ, ዳይሬክተሮች ሲሰሩ ለችግርዎ ተስማሚ የሆነ የውሂብ ስብስብ (ካርታ) ይመርምሩና ከዚያ ያንን ዶክመንት ስብስብ ከእሱ ጋር ከተመሳሰለው ጋር ያወዳድሩ. እራስዎን ውሂብዎን ካልሰበሰቡ በእርስዎ እና በምን ነገሮች መካከል ያሉ አስፈላጊ ልዩነቶች ሊኖሩ ይችላሉ. እነዚህን ልዩነቶች መገንዘብ እርስዎ ምን ሊያውቋቸው እንደሚችሉ እና እርስዎ ሊያውቋቸው ከሚችሉ መረጃዎች ላይ ለማጣራት ይረዳሉ, እና እርስዎ የሚሰበስቡትን አዲስ መረጃ ሊጠቁሙ ይችላሉ.

በእኔ ልምድ ማህበራዊ ሳይንቲስቶች እና የውሂብ ሳይንቲስቶች በጣም በተለየ መልኩ ወደሌላ ለመመለስ ወደ ኋላ መቅረብ ይፈልጋሉ. ለምርምር የተዘጋጁ መረጃዎችን በመስራት የመጠቀም ልምድ ያላቸው የማኅበራዊ ሳይንቲስቶች በአብዛኛው ችግሮቹን ችላ በማለታት በድጋሚ የተጠለፉ መረጃዎችን ወደ ጎን በመጥቀስ በአፋጣኝ ያቀርባሉ. በሌላ በኩል መረጃ የሳይንስ ሊቃውንት የተሃድሶ መረጃዎችን ጥቅሞች ችላ በማለት ጥቅሞቹን ለማመልከት በአፋጣኝ ያቀርባሉ. በተሻለ ሁኔታ ምርጡ አሰራር ድብልቅ ነው. ይህም ማለት ተመራማሪዎቹ ትላልቅ የመረጃ ምንጮችን ባህሪዎችን - ጥሩም ሆነ መጥፎ - እንዲሁም ከነሱ እንዴት መማር እንደሚቻል መገንዘብ አለባቸው. እናም የዚህ ምዕራፍ ቀሪ ዕቅድ ይህ ነው. በቀጣዩ ክፍል ውስጥ ትላልቅ የውሂብ ምንጮች አሥር አመታት ባህሪያትን እገልጻለሁ. ከዚያም በሚቀጥለው ክፍል እንደነዚህ ያሉትን መረጃዎች በደንብ ሊሠሩ የሚችሉ ሦስት የጥናትና ምርምር ዘዴዎችን እገልጻለሁ.