Dữ liệu của chính phủ thường được mô tả như một hàng hóa công cộng. Một bộ dữ liệu được thu thập một lần có thể được nhiều nhà nghiên cứu sử dụng cho nhiều dự án. Cung cấp dữ liệu giúp giảm chi phí nghiên cứu và cũng có thể làm cho chính sách của chính phủ trở nên minh bạch hơn. Nhưng lập luận đó bỏ sót tác dụng của dữ liệu giá rẻ đối với động lực nghề nghiệp. Khi chính phủ cung cấp nguyên liệu thô cho nghiên cứu có thể xuất bản, giới học thuật bắt đầu trở nên hấp dẫn hơn đối với những người có thể sử dụng kỹ năng của họ ở nơi khác.
Một tập dữ liệu hữu ích có thể làm được nhiều việc hơn là chỉ trả lời một câu hỏi nghiên cứu thông minh; nó có thể làm cho sự nghiệp học tập trở nên khả thi hơn. Dữ liệu phù hợp có thể giúp luận văn có đủ lực kéo để trở thành một chuỗi bài báo hoàn chỉnh và đối với một nhà nghiên cứu trẻ có kỹ năng định lượng giỏi, điều đó có thể khiến giới học thuật trông an toàn hơn so với một công việc trong nhóm sản phẩm. Trong những trường hợp đó, người nộp thuế đã làm được nhiều việc hơn là chỉ trả tiền cho việc thu thập dữ liệu. Họ đã giúp nghiêng sự lựa chọn nghề nghiệp về phía học viện.
Dữ liệu của chính phủ có thể trở thành một vấn đề xấu đối với công chúng. Nó làm giảm chi phí tư nhân của việc sản xuất học thuật trong khi giá trị xã hội của bài báo cận biên thường không đáng kể. Thay vào đó, người công nhân có thể đã xây dựng phần mềm, cải thiện dịch vụ hậu cần hoặc đánh giá các khoản đầu tư tư nhân sẽ tạo ra một nghiên cứu khác được thiết kế cho các trọng tài. Mặc dù điều đó có thể trông giống như việc tạo ra kiến thức, nhưng phần lớn nó lại đưa nhân tài vào một thị trường tôn vinh những lời khen ngợi và uy tín thay vì lợi nhuận và khách hàng.
Vấn đề khuyến khích
Quy mô trợ cấp dữ liệu không còn nhỏ nữa, báo cáo 361.525 bộ dữ liệu trong danh mục của nó. IPUMS báo cáo 2,6 tỷ hồ sơ, hơn 2.500 bộ dữ liệu và cộng đồng người dùng trên 340.000. Chỉ riêng trong năm 2025, IPUMS cho biết họ đã cung cấp 868 terabyte dữ liệu và hơn 1.300 yêu cầu dữ liệu mỗi ngày. Hiện nay có một cơ sở hạ tầng nghiên cứu lớn dành cho những người biến những hồ sơ này thành kết quả học thuật.
Hệ thống khen thưởng học thuật ngày càng ưa chuộng loại công việc này. Các Hiệp hội kinh tế Mỹ cho biết các tạp chí của họ chỉ xuất bản các bài báo khi dữ liệu và mã được ghi lại rõ ràng và quyền truy cập không chỉ dành riêng cho các tác giả. Quy tắc đó hợp lý như một biện pháp minh bạch. Nó cũng báo hiệu rằng sản phẩm học thuật thống trị hiện nay là sản phẩm dữ liệu. Một nhà nghiên cứu có thể tập hợp dữ liệu và mã sẽ có cơ hội xuất bản tốt hơn một nhà nghiên cứu được trang bị chủ yếu lý thuyết hoặc kinh nghiệm thực tế.
Kết quả là bản thân nghiên cứu đang thay đổi. Nhà kinh tế Prashant Garg và Thiemo Fetzer phân tích hơn 44.000 tài liệu nghiên cứu của Cục Nghiên cứu Kinh tế Quốc gia và Trung tâm Nghiên cứu Chính sách Kinh tế từ năm 1980 đến năm 2023. Họ phát hiện ra rằng tỷ lệ tuyên bố nhân quả trên mỗi bài báo đã tăng từ 7,7% năm 1990 lên 31,7% vào năm 2020. Kinh tế là trường hợp rõ ràng nhất, nhưng mô hình còn rộng hơn. Khoa học chính trị, xã hội học, tâm lý học, chính sách công, kinh doanh và lịch sử kinh tế ngày càng khen thưởng những người có thể sử dụng dữ liệu để yêu cầu nhận dạng.
Đó là bằng chứng về sự thay đổi lớn trong việc phân bổ nhân tài. Kinh tế học dạy rằng con người phản ứng với giá cả. Khi chính phủ giảm giá sản xuất các công trình thực nghiệm có thể xuất bản và các tạp chí tăng lợi nhuận cho công trình đó, thì nhiều nhà phân tích dữ liệu có năng lực hơn sẽ gia nhập hoặc ở lại làm việc trong giới học thuật hơn là lẽ ra phải làm như vậy.
Ngành công nghiệp coi trọng các nhà nghiên cứu hơn
Một dấu hiệu cho thấy nhân tài đang bị thu hút khỏi những mục đích sử dụng có giá trị cao hơn trên thị trường là khoảng cách về lương. Trung tâm Thống kê Khoa học và Kỹ thuật Quốc gia báo cáo mức lương dự kiến năm 2024 cho những người mới nhận bằng tiến sĩ với những cam kết rõ ràng. Trong ngành khoa học xã hội, mức lương trung bình của ngành là 129.000 USD, so với 75.000 USD ở học viện. Trong toán học và thống kê, sự so sánh là từ 150.000 USD đến 68.000 USD. Trong khoa học máy tính và thông tin, nó là từ 180.000 đến 100.000 USD.
Mức lương trong ngành vượt quá mức lương học thuật của những người mới nhận bằng tiến sĩ trong các lĩnh vực được chọn.NGUỒN: Khảo sát NCSES về số lượng Tiến sĩ kiếm được năm 2024
Đúng là lương là thước đo không hoàn hảo về giá trị xã hội. Thị trường phạm sai lầm và các trường đại học tạo ra một số lợi ích công cộng. Tuy nhiên, tiền lương là bằng chứng hữu ích. Doanh nghiệp trả lương khi người lao động được kỳ vọng sẽ tạo ra giá trị cho khách hàng và nhà đầu tư. Khi cùng một tài năng phân tích đó kiếm được ít tiền hơn trong giới học thuật, giới học thuật đang mua lao động với giá chiết khấu, có lẽ vì nó mang lại những lợi ích phi thị trường như địa vị và quyền tự chủ.
Một yếu tố khác là giới học thuật cung cấp quyền truy cập vào nội dung nghiên cứu khoa học được bình duyệt, cũng như quyền truy cập dễ dàng hơn vào các đầu vào trong nghiên cứu như dữ liệu công cộng. Nhà kinh tế Scott Stern làm ra một điểm liên quan cách đây hai thập kỷ, phát hiện ra rằng các nhà khoa học đã chấp nhận giảm lương đáng kể cho những công việc cho phép xuất bản và tự do khoa học. Điều đó có thể tốt cho khoa học khi công việc thực sự hữu ích. Sẽ ít được mong đợi hơn khi hoạt động được trợ cấp lại là một phép hồi quy thông minh khác về dữ liệu mà ít người bên ngoài nền kinh tế máy trích dẫn sẽ sử dụng.
Học viện là nơi phân bổ tài năng kém
Học viện không phân bổ nhân tài một cách đặc biệt tốt khi mọi người bước vào đó. Hunter Wapman và các đồng tác giả đã học 295.089 giảng viên theo dõi nhiệm kỳ tại Ph.D. cấp cho các trường đại học từ năm 2011 đến năm 2020. Họ nhận thấy rằng 80% giảng viên được đào tạo trong nước chỉ đến từ 20,4% các trường đại học. Chỉ riêng 5 cơ sở đào tạo hàng đầu đã đào tạo được 13,8% số giảng viên. Một giáo sư điển hình làm việc tại một trường đại học có uy tín thấp hơn 18% so với trường lấy bằng tiến sĩ. Tự thuê là 9,1 phần trăm giảng viên.
Học viện là một hệ thống dựa trên hệ thống phân cấp. Các khoa có uy tín tạo ra nhiều giáo sư tương lai hơn chủ yếu là vì họ có uy tín. Sau đó, hệ thống sẽ tự nói với mình rằng kết quả phản ánh thành tích. Một quốc gia trợ cấp cho hệ thống này với dữ liệu công cộng phong phú hơn bao giờ hết sẽ mong đợi có nhiều người tài năng hơn xếp hàng để có được địa vị hơn là kiểm tra kỹ năng của họ trên thị trường.
Sự phân bổ sai tài năng cũng bắt nguồn từ hoàn cảnh gia đình. Allison Morgan và các đồng tác giả được khảo sát 7.204 giảng viên theo dõi nhiệm kỳ ở tám chuyên ngành và nhận thấy rằng 22,2% có phụ huynh có bằng Tiến sĩ. Khả năng giảng viên có bằng tiến sĩ cao gấp 12 đến 25 lần so với người trưởng thành nói chung. cha mẹ. Mã ZIP thời thơ ấu của họ có thu nhập trung bình cao hơn 23,6% so với mức trung bình mã ZIP quốc gia. Một hệ thống đại diện quá mức cho con em học giả khó có thể tìm được tất cả những tài năng có giá trị cao nhất.
Hệ thống sở hữu cũng không giải quyết được vấn đề. Theodore Masters-Tiền lương và đồng tác giả đã học 1.571 trường hợp thăng chức và bổ nhiệm tại năm trường đại học và phát hiện ra rằng các giảng viên thuộc nhóm thiểu số ít đại diện nhận được nhiều phiếu phản đối hơn 7% và khả năng nhận được phiếu tán thành nhất trí thấp hơn 44%. Hình phạt tập trung vào những ứng viên có giá trị chỉ số h thấp hơn. Tin nhắn thật nghiệt ngã. Khi các tín hiệu nhiễu, giới học thuật sẽ dựa vào các thước đo thiên vị, phả hệ và tác động thô thiển như số lượng trích dẫn.
Nhiều bài viết hơn không có nghĩa là tiến bộ hơn
Một quốc gia cũng cần phải hỏi xem mình sẽ nhận được gì khi lao động học tập thêm. Nicholas Bloom và các đồng tác giả tranh cãi rằng ý tưởng ngày càng khó tìm hơn. Họ chỉ ra chất bán dẫn, nơi mà đến năm 2014, số lượng nhà nghiên cứu cần thiết để duy trì tiến bộ theo kiểu định luật Moore đã lớn hơn 18 lần so với đầu những năm 1970. Nhiều lao động nghiên cứu đang được đổ vào hệ thống để đạt được ít tiến bộ hơn ở mức cận biên.
Một nghiên cứu rộng hơn của Park, Leahey và Funk đã xem xét 45 triệu giấy tờ và 3,9 triệu bằng sáng chế trong hơn sáu thập kỷ và nhận thấy rằng cả giấy tờ và bằng sáng chế đều trở nên ít gây rối hơn. Trong khi nhiều nghiên cứu tốt đang được tiến hành, sản lượng cận biên của ngành công nghiệp tri thức rõ ràng đang giảm dần. Trên thực tế, trong khoa học xã hội thực nghiệm, mối nguy hiểm không chỉ ở giá trị thấp mà còn ở giá trị âm. Một tuyên bố nhân quả yếu kém có thể biện minh cho một quy định mới, trợ cấp hoặc tăng thuế. Khi dữ liệu giúp tạo ra các tài liệu mà sau đó được sử dụng để mở rộng sự kiểm soát của chính phủ đối với nền kinh tế, chi phí sẽ vượt xa tiền lương để bao gồm tất cả các chính sách tồi được làm cho đáng tin cậy hơn nhờ các bảng biểu, báo cáo và các nhà nghiên cứu hỗ trợ khác cho chính sách vay mượn để tạo cho chính sách cảm giác được hỗ trợ bởi khoa học cứng.
Trường hợp có ít bộ dữ liệu công khai hơn
Dữ liệu điều tra dân số, dữ liệu ngân sách, dữ liệu tội phạm, dữ liệu y tế và dữ liệu quy định có thể cần thiết cho việc giám sát. Người dân sẽ có thể thấy những gì chính phủ đang làm. Nhưng có sự khác biệt giữa tính minh bạch đối với công chúng và nhiên liệu nghiên cứu cho hoạt động học thuật.
Việc phát hành dữ liệu phải được coi là trợ cấp kèm theo chi phí cơ hội. Hướng dẫn gần đây của liên bang chỉ ra hướng này. Chính quyền Trump đã đề xuất rằng các cơ quan liên bang đánh giá các hoạt động thu thập và phổ biến dữ liệu cẩn thận hơn, nhấn mạnh liệu các sản phẩm thông tin có phục vụ mục đích công cộng rõ ràng và có thể biện minh cho chi phí của chúng hay không. Đó là một điểm khởi đầu hợp lý. Logic tương tự không chỉ áp dụng cho việc thu thập dữ liệu mà còn cho việc tạo và phát hành các bộ dữ liệu nghiên cứu lớn. Các cơ quan nên hỏi liệu tập dữ liệu có nâng cao tính minh bạch, trách nhiệm giải trình hay nhu cầu hoạt động cụ thể hay không, hay liệu tác dụng chính của nó chỉ đơn giản là giảm chi phí sản xuất một đợt xuất bản học thuật khác.
Các bộ dữ liệu nghiên cứu lớn sẽ phải đối mặt với việc xem xét hoàng hôn. Ngay từ đầu, nên xây dựng ít bộ dữ liệu khu vực công hơn. Khi dữ liệu được tạo ra, các cơ quan nên áp dụng phí người dùng để điều chỉnh tốt hơn các ưu đãi tư nhân với chi phí xã hội. Các cơ quan cũng nên theo dõi ai sử dụng dữ liệu, những gì được tạo ra và liệu công việc có làm thay đổi bất kỳ quyết định nào bên ngoài học viện hay không. Khi kết quả chính là được xuất bản nhiều hơn trong một nền văn học vốn đã đông đúc thì không nên coi đó là lợi ích công cộng.
AI tăng cường sản xuất quá mức nghiên cứu
Trí tuệ nhân tạo có khả năng định hình lại cảnh quan một lần nữa. Các mô hình ngôn ngữ lớn có thể dọn dẹp các tập tin quản trị lộn xộn, viết và gỡ lỗi mã, đồng thời tạo ra một bản đánh giá tài liệu hữu ích trong một buổi chiều. Đối với giới học thuật, một số sự gián đoạn đó sẽ có lợi. Nó sẽ loại bỏ phần lớn sự vất vả từng biện minh cho một sinh viên tốt nghiệp khác và rút ngắn thời gian từ câu hỏi đến bài viết. Một luận án từng đòi hỏi nhiều năm xây dựng dữ liệu tỉ mỉ có thể sớm chỉ mất vài tuần. Nếu vậy, những người tài năng sẽ có nhiều tự do hơn để hướng nỗ lực của mình vào công việc tạo ra giá trị ở những nơi khác trong nền kinh tế.
Nhưng AI cắt giảm cả hai cách. Khi một mô hình có thể kết hợp dữ liệu mới được công bố với chiến lược thực nghiệm trong vài giây, nguồn cung cấp các phát hiện có thể công bố sẽ mở rộng đáng kể. Nỗ lực nghiên cứu trở nên ít bị hạn chế hơn bởi thời gian, khả năng mã hóa hoặc làm sạch dữ liệu và bị hạn chế nhiều hơn bởi khả năng tiếp cận nguyên liệu thô. Nếu kết quả là một dòng các bài báo ngày càng phát triển chủ yếu tạo ra uy tín học thuật hơn là kiến thức hữu ích cho xã hội, thì bản thân dữ liệu sẽ trở thành biên độ chính sách liên quan. Trong thời đại phân tích gần như không có ma sát, việc hạn chế việc tạo và phát hành các bộ dữ liệu công cộng có thể là một trong số ít cách thực tế để hạn chế việc sản xuất nghiên cứu học thuật được trợ cấp.
Bỏ đói Quái vật
“Bỏ đói con thú” là một khẩu hiệu tài chính gắn liền với việc hạn chế sự tăng trưởng của chính phủ bằng cách hạn chế nguồn thu dành cho nó. Ở đây, con quái vật không phải là chi tiêu của chính phủ mà là hoạt động nghiên cứu học thuật được nhà nước trợ cấp. Nếu AI có thể biến hầu hết mọi tập dữ liệu thành một luồng giấy tờ, thì việc kiểm soát việc cung cấp tập dữ liệu mới sẽ trở thành một cách để nâng cao hiệu quả cho hệ thống. Bỏ đói hệ thống dữ liệu là một công cụ mạnh mẽ vì nó hoạt động tại nguồn.
Dữ liệu miễn phí của chính phủ có vẻ vô hại vì sự thay thế bị mất là vô hình. Công chúng nhìn thấy tập dữ liệu, ấn phẩm hoặc hội thảo. Nó không thấy nhà phân tích chưa bao giờ gia nhập một công ty, sản phẩm chưa bao giờ được tạo ra hoặc khoản đầu tư tư nhân chưa bao giờ được đánh giá. Một quốc gia trợ cấp cho những phát hiện có giá trị thấp được công bố sẽ không ngạc nhiên khi nhiều người thông minh dành cả cuộc đời để tạo ra chúng.
Cuộc tranh luận tiếp theo về dữ liệu của chính phủ sẽ đặt ra câu hỏi thực sự mỗi tập dữ liệu dùng để làm gì. Nó có giúp đất nước đạt được mục đích công thực sự hay nó chủ yếu tạo ra sự nghiệp học thuật? Trường hợp câu trả lời là vế sau thì việc cung cấp dữ liệu sẽ trở thành nguyên liệu thô cho vấn đề xấu của cộng đồng.

