实证研究的可信度,在很大程度上取决于三个基础环节,即变量定义是否清晰、测度方式是否合理、样本数据是否可靠。而描述性统计,正是我们判断数据质量最直观、最常用的工具之一。
然而,在日常审稿中,我们发现不少稿件在这些基础环节上存在疏忽,甚至出现一些本可避免的低级错误。这些错误削弱了研究结论的可信度。为此,我们提出以下几点建议,希望能帮助大家进一步规范实证研究中的变量定义与描述性统计,共同提升论文质量。
第一,在变量定义与测度时,避免想当然。
变量是实证研究的“语言”。定义不清、测度不当,后续分析再精巧也难免站不住脚。实证研究中有一些广为流传的变量定义或测度方式,其实并不太合理。例如,“将企业年龄定义为企业年龄的对数”,“用经济增长率衡量经济发展水平”,“用第三产业与第二产业产值之比衡量产业结构高级化水平”。仔细斟酌后,其实能够发现这些定义或测度方式有失妥当。
因此,我们建议,仔细斟酌变量定义,不宜习惯性地照搬现有文献,而应结合研究问题、理论逻辑与数据可得性,给出清晰的定义,并使用符合逻辑的测度方式,避免想当然或以讹传讹。
第二,变量定义和描述性统计不宜用对数形式。
许多作者习惯在描述性统计表格中直接报告变量的对数形式(例如“人均总收入的对数”),这种做法并不推荐。这是因为,对数变换不利于读者直观理解,也会掩盖原始数据的异常值。描述性统计的核心功能是让读者快速了解样本的基本特征,例如最小值、最大值、均值、标准差等。报告原始值的统计量,显然比报告对数值更直观。离群值、数据录入错误等问题,在原始尺度上往往一目了然,取对数后则难以察觉。例如,若描述性统计表格显示中国城市层面人均总收入的最大值是100万人民币,则比较容易判断数据有误;但是,若表格显示人均总收入的对数的最大值是13.815,则很难一眼看出它有问题——若不用计算器,鲜有人知道ln1000000等于13.815。
因此,建议的做法是,变量定义和描述性统计都使用原始值,并注明变量的单位。如果在回归分析中确实需要对变量取对数,可以在模型估计部分说明,但在变量定义和描述性统计仍应呈现原始值的特征。例如,可以说,本文用人均总收入衡量经济发展水平,并在回归时取对数。
第三,须仔细观察描述统计结果。
在做回归分析之前,必须仔细检查描述性统计表格中的样本量、均值、标准差、最大值和最小值。若最大值、最小值不在正常范围内,则须核查数据来源,查明错误原因,并重新选择可靠的数据来源。值得强调的是,判断数据是否异常需要作者关心和了解现实,并有一定的知识储备。例如,《中华人民共和国公司法》规定,股份有限公司董事会成员应为5人至19人。因此,在关于上市公司董事会人数的描述性统计中,如果最小值和最大值不在这个范围,则必定有误,须怀疑数据来源的可靠性。
以上建议看似基础,却是是确保研究结论可信的第一道防线。我们真诚希望各位作者在撰写论文时,能够给予变量定义与描述性统计足够的重视。
感谢您对《当代财经》《江西财经大学学报》的支持与信任!欢迎转发、讨论。
当代财经杂志社
2026年4月