關于我們
首 頁 >> 新聞中心 >> 調研方法
調研知識|巧用微觀數據做研究

調研知識|巧用微觀數據做研究

發布日期:2019-02-15 作者: 點擊:

做過研究,或在畢業季準備做研究的童鞋應該都有過這樣的體會,即:如果做實證研究的話,論文中應該選用什么數據?而所選的數據不但跟自己的選題有關,還會反映文章的質量。


本科時期教我的一些年長的老師大多使用的是宏觀數據,如國家統計局提供的各類年鑒,或者是自己的調研數據,這或許反映了他們那一代人做研究的方法;而后來接觸的幾位剛從美國讀完博士回來的老師,發現他們普遍傾向于使用微觀數據,比如之前寫過一篇文章提到的國內較常用的幾個微觀數據庫。但是后來我在上海對外經貿大學的“微觀應用計量”暑期班上接觸到大量實證研究之后,我發現了一個特點:即每一篇展示的文章,基本上都是使用的不同的數據。甚至可以這樣說,許多學者花費長時間構建自己(通常是小型)的數據庫,就是為了寫一篇文章(當然用同一套數據寫幾篇文章也挺常見的,如西財的何石軍等人所做的清代妻妾價格研究)。這種構建數據庫的想法,跟構建大型微觀數據庫的想法完全不同。這反映了實證研究數據來源的多樣,也反映了在當下,一份好的研究值得我們付出漫長而耐心的努力。


因此,本文主要談下實證研究中數據的獲取和使用問題,給大家(特別是需要展開論文研究的各位童鞋)提供一些思路。當然,范圍限制在經濟學學科,偏微觀應用計量領域。


01 微觀數據庫的使用及其意義


做中國的實證研究,一個重要的數據來源便是國內正在建設的幾個微觀數據庫,包括但不限于:北大的CFPS、CHARLS,西財的CHFS、北卡的CHNS、北師大的CHIP、人大的CGSS等。目前國內的許多高校都在興建類似于“社會科學調查中心”這樣的機構,并希望依靠該平臺建立自己的微觀數據庫,由此可見當下國內學界對微觀數據的重視。大型微觀數據庫的意義在于:可研究的內容更廣(變量多),更全面(涉及家庭方方面面),可做長期跟蹤調查(更可靠的面板數據研究),且更能惠及學界(公開數據),等等。


而對于需要開展研究的初學者來說,微觀數據庫最為重要的地方或許在于:一、數據質量高,這為他們的研究提供了可靠的基礎;二、簽署協議后可免費使用,這種學界的正外部性讓初學者感到輕松許多。


之前看過一個2011年左右的公開課,如果沒聽錯的話,我記得視頻里Raj Chetty說現在已經不興使用Survey Data(調查數據),而是興使用Administration Data(行政機構提供的數據?)。這里的Survey Data,指的就是上文提到的微觀數據;而Administration Data,大概指的如稅收數據這種由行政部門提供的數據。這里換個說法大家或許就不會感到太陌生了,Thomas Piketty 及其合作者Emmanuel Saez 利用美國政府提供的稅收數據反推出美國的居民收入,由此研究收入不平等(Income  Inequality)的議題。


而根據所做的研究,Piketty 后來出版了大家都很熟悉的Capital in the Twenty-First Century一書。這就是一個使用Administration Data進行研究的故事。


Chetty 這么說或許跟在美國學界的現狀有關:在美國,申請官方的數據更為簡單,且有法律支持;而美國的微觀數據庫,如NPL (The National Longitudinal Surveys),已經起步快40年了,因此建立在此之上的研究應該有很多。而國內的微觀數據才剛剛起步,雖然也產生了許多研究,但還有許多社會狀況有待于學界、民眾和政府部門去了解。


另外值得一提的是,中國的國家統計局(NBS)提供的每10年一次的人口普查數據,以及兩次人口普查之間的1%抽樣數據。最近一次的人口普查數據為六普數據(2010年);而1%抽樣數據目前執行過三次,分別在1978、1995和2005年?;谶@些普查數據進行的研究也不少,如Qian Nancy(2008)著名那篇著名的Missing Women,當然,這篇文章還結合了地理數據。


02 自己構建數據庫


除了使用現成的數據之外,就是自己構建數據庫了。相較于上文提到的微觀數據庫,這種數據庫顯得較為小型,往往是因為一篇研究的需要而構建的數據庫。數據來源往往為以下幾個途徑:調查問卷、歷史文本、網絡爬蟲等。最后還會談下一類較為特殊的數據,如地理、氣象、環境數據,這類數據來自自然科學領域,往往作為配角和其他數據結合起來,幫助學者進行研究。


? 調查問卷


考慮財力人力等現實問題的話,學者通過小范圍的調查問卷進行研究還是挺常見的。這方面的論文提多,這里提一篇個人覺得比較有意思的文章。陳釗、陸銘等人(2014)最近在CER上發表的關于“方言的回報”的研究,所使用的即是他們自己在上海地區收集的調查數據。


自己用調查問卷收集數據,最為重要的是保證數據的質量。問卷設計是一方面,而更為需要注意的另一處是數據的偏誤問題。舉個例子,最近臨近期末,可以看到許多同學(也包括在國外讀研究生的同學額)為了做項目在微信朋友圈上發調查問卷。這種收集數據的方式,如果不是研究相關議題(如特定于微信用戶的研究),那么就可能存在很多很嚴重的問題。這種調查方式收集的數據存在偏誤,即自我選擇偏誤(self-selection bias)的問題。


首先,大部分使用微信的都是年輕人,所以這種你不可能在朋友圈做類似于“城市老年人消費觀念”的調查;其次,最為可能幫你你填寫問卷的人是近期跟你玩得比較好的朋友,所以這種方式收集的數據內容甚至不能用來代表你朋友的普遍狀況。比如,有一位女同學在收集了幾份問卷信息之后,在朋友圈抱怨說,“基本都是女性在填寫問卷,來幾位男同胞啊?!比绻f這種一開始就赤果果的偏差都沒有引起她的注意,那么只能說她沒有一點兒“隨機抽樣”的意識。而且,要知道,即使是最后填寫問卷的男女比例達到了1:1,這樣收集上來的數據也是“然并卵”的質量。


不符合隨機原則收集的調查數據可能完全不具備代表性,但并不是說就不能用,這跟你的研究內容有關。比如說,有一個域名為 zuobiao.me 的網站,為國人提供“中國政治坐標系測試”,這一測試在網民之間流傳很廣。后來這個網站被墻,于是站長覺得被墻之后收集的數據偏誤會很大(BTW,站長是數學系的博士),因為能翻墻過來填寫問卷的人跟無法翻墻的人之間的政治觀念差異可能會很不一樣,因此他決定公開該網站這幾年收集的數據。根據這一數據,MIT的徐軼青等人(2015)和復旦的蘭小歡(2015)各寫了一篇文章。其實該網站被墻之前,收集的問卷數據也是有偏的,因為會做該測試的人,往往可能是對政治較為感興趣的年輕網民,而不是全體國人。但是上面提到的兩篇研究,研究的內容正是局限于對政治議題較為感興趣且偏向于年輕的網友,因此即使數據有偏,但還是可以用在研究上。


另外,“自我選擇偏誤”不單存在于數據收集上,還可能存在于進行實證研究時數據選取上。比如你感興趣的是某一地區的全部人員,但是數據庫提供的僅僅是勞動力市場上人員的調查數據;又比如你感興趣的研究內容是勞動力的受教育程度對其收入的影響,但是你會發現受教育程度較高的這部分人,往往也是家庭背景較好的一類人,而這一類人的高收入可能是由于家庭背景導致的,而如何識別教育回報,也就是一個解決“自我選擇偏誤”的過程。對此感興趣的同學可以看下Heckman(1979)的經典大作。


? 歷史文本


從歷史文本中整理數據是另一種收集數據的方式,我想隨著國內經濟史研究的方興未艾,通過歷史文本整理數據的研究可能會越來越多。即將在Econometrica刊發的Elite Recruitment and Political Stability一文,探討了清朝廢除科舉制對政治穩定的影響,使用的即是整理自文本的歷史數據:1900-1906年間清朝262個府的面板數據。關于這篇文章的研究內容,可參見政見的這篇《廢除科舉加速清朝滅亡?》。而這篇文章的兩位作者,也是政經和經濟史領域的兩顆學術新星,分別是目前在港中文的白營和UCSD的賈瑞雪。


再舉一些經濟史方面的研究,如白營和賈瑞雪之前分別寫的一些文章。白營和港科大的Prof. Kung 合作的兩篇文章(2011,2014),分別研究了氣候變化對游牧民族入侵中原的影響,和新教在中國的知識傳播對經濟增長的影響。之前8月份第一次去青島,我想到中國殖民地這方面的經濟史研究選題,后來發現賈瑞雪做過一篇相關研究,即是這篇發在RES的 The Legacies of Forced Freedom。


《量化歷史研究》中顏色老師的那篇《從經濟學的角度研究經濟史的一點體會》,提到了經濟史的一類很適合的研究內容為“遺產”研究(Legacy Research)。我原先不太明白什么叫做“遺產研究”,后來看到賈瑞雪這篇 The Legacies of Forced Freedom的研究內容,我才大概明白為什么說“遺產”研究是一類較為適合的經濟史研究。其實很簡單,從現實層面考慮,綜合”歷史數據的難以獲取“和“當下經濟數據的可獲取性”兩個現實,由此可推斷經濟史中一個可行的研究內容就是,研究歷史上發生的事情對當下社會經濟狀況的影響,這即是所謂的“遺產”研究。


這類的研究有許多,這里推薦Harvard的Melissa Dell的兩篇文章,一篇是顏色老師在書中推薦的,發在Econometrica上的 The persistent effects of Peru’s mining mita ; 另一篇則是她的工作論文:State Capacity, Local Governance, and Economic Development in Vietnam。這兩篇研究都是使用RDD,研究的都是歷史上的某一事件對當下的影響,因此使用的數據為2000年之后的家戶調查數據:前者使用的數據包括2001年的秘魯家戶調查數據(Peruvian National Household Survey ),后者使用的數據包括2002-2012年的越南家戶調查數據(Vietnam Household Living Standards Survey)。


? 網絡爬蟲


現在基于網絡數據進行的實證研究也不少。一方面,網絡數據雖然本身就是以電腦可直接處理的形式存在,但是該形式并不一定可以直接用做研究,也需要對其進行處理。另一方面,網絡數據的優點之一是其涉及的樣本量往往會比較大,因為它可能是用戶自己提供的數據,如微博信息、婚戀網站的匹配數據等;也可能是定期更新的數據,如財經數據、電影票房信息等。網絡數據經常需要用爬蟲來獲取,但這并不意味著研究人員本身需要具備爬蟲技術,目前雇傭專業人員用爬蟲獲取數據的情況也是挺常見的。


網絡數據這方面的研究,上面提到的“微博”、“婚戀網站”、“財經數據”、“票房信息”四個方面都有相關的研究,其中有些研究會結合其他的一些數據,如等下會談到的環境數據;當然,除此之外利用網絡數據進行的研究有很多,也包括研究學界本身,如利用學科的期刊數據來進行研究。我對這方面的關注較少,因此除了上文提到的徐軼青等人(2015)和蘭小歡(2015)的兩篇文章,這里沒有其他推薦。關于網絡數據的偏誤問題,也見上文內容。


? 自然科學數據


因為我不知道該如何給地理數據、氣象數據、環境數據、甚至外太空獲取的燈光數據等數據歸類,所以這里我就統一把他們歸為自然科學領域的數據。


通常,經濟學家會將這類數據當做是輔助工具,結合自己的主要數據來進行研究。前面提到的:Qian(2008)的Missing Women 和Dell(2010)的 The persistent effects of Peru’s mining mita都是結合了地理方面的數據。后者是利用地理環境構建了一個RDD,也有學者用這種方法研究中國問題,即陳玉宇和李宏彬(2013)等人利用中國政府在淮河兩側采取供暖政策不同,構造了一個地理上的RDD,由此得出長期暴露在空氣污染中的居民的平均預期壽命會縮短3年。


用氣象數據進行的研究,如之前提到的Bai和Kung(2011)合作的文章:氣候變化對游牧民族入侵中原的影響。而隨著中國環境問題的加劇,特別是霧霾問題,用環境數據所進行的研究在未來幾年應該都會陸續出現。如空氣污染是否會影響人們的消費行為,是否會影響人們的身體健康和心理感受(如滿意度)等。


用外太空獲取的燈光數據進行政治經濟學研究,大家應該都有所耳聞。對于一些經濟數據較為難以獲取,且官方提供的數據不太可靠的地區(比如非洲),用外太空獲取的地區的燈光數據當做是地區經濟發展狀況的代理變量,由此來進行相應的研究。這方面的研究我也沒有細看過文章,所以這邊也沒有推薦。


03 深入討論


上面提到了幾個獲取數據的途徑,但并不是說實證研究只能通過這幾個途徑獲取數據。從某種程度上來說,實證研究的數據獲取可以是一個開腦洞的過程,比如外太空的燈光數據;而實證研究過程中將不同的數據結合起來,也可以是一個開腦洞的過程,就類似于尋找準自然實驗的過程。這就所謂的,“大處著眼”。


而在獲取了數據之后,更為重要的是如何處理這些數據。數據本身的狀況就形態各異,因此需要研究者對其進行細致的識別,這樣才能更好(或說更科學)地使用這些數據。實證研究中很關鍵的一點是識別策略,因為識別涉及到該研究的因果推斷,因此只有制定了好的識別策略學者才能做出好的實證研究。這就是所謂的,“小處著手”。


最后,我們拋開數據處理的操作層面,來探討下數據的本質。記得Angrist等人合著的《基本無害的計量經濟學》中曾這樣描述過RDD,“斷點回歸式識別策略基于如下思想:在高度依賴規則而運行的世界中,有些規則的出現是十分隨意,這種隨意性為我們提供了性質良好的實驗。


而數據的產生也是如此,如果說社會存在某些規律(自然的或者是人為的),那么在日常生活中它就可能反應在人類產生的各種資料之中,這些資料可以是歷史文本、微博信息、大氣質量等信息,實證研究需要做的就是,使用科學的研究設計(識別策略、計量框架等)來對這些被稱作為“數據”的資料進行研究,由此重新挖掘出數據中蘊含著的社會奧秘。

本文網址:http://www.nabajibanclinic.com/news/441.html

關鍵詞:江西市場調查,江西市場調研,江西市場研究

最近瀏覽:

  • 在線客服
  • 聯系電話
    13197914691
  • 在線留言
  • 手機網站
  • 在線咨詢
    歡迎給我們留言
    請在此輸入留言內容,我們會盡快與您聯系。
    姓名
    聯系人
    電話
    座機/手機號碼
    郵箱
    郵箱
    地址
    地址
    日本午夜精品一区二区三区电影_亚洲欧美国产精品无码中文字_俄罗斯毛妹BILIBILI_欧美高清XVIDEOSSEXO
    <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>