Những ngày đầu: Nghiên cứu tuyên truyền
Câu chuyện về phân tích văn bản tự động, hay phân tích văn bản định lượng, còn được gọi là văn bản là dữ liệu, bắt đầu từ Chiến tranh thế giới thứ nhất
. Giống như nhiều cải tiến công nghệ khác, lĩnh vực phân tích văn bản bắt đầu từ những nỗ lực tìm hiểu tuyên truyền và xem liệu tuyên truyền có hiệu quả hay không.
Một trong những ứng dụng sớm nhất được ghi lại của phân tích văn bản là của nhà khoa học chính trị Harold Lasswell. Ông đã viết, chúng ta có thể phân loại các tham chiếu thành các danh mục theo sự hiểu biết chiếm ưu thế trong số những người quen thuộc với các ký hiệu. Các tham chiếu được sử dụng trong các cuộc phỏng vấn có thể được định lượng bằng cách đếm số lượng tham chiếu rơi vào từng danh mục trong một khoảng thời gian được chọn hoặc trên mỗi nghìn từ được thốt ra .
Hành động phân loại các tham chiếu thành các danh mục và sau đó đếm số lượng các tham chiếu đó có vẻ sơ khai, nhưng Harold Lasswell đã đi trước thời đại. Vào năm 1938, ý tưởng biến văn bản thành dữ liệu là hoàn toàn xa lạ đối với hầu hết mọi người. Sách giáo khoa đầu tiên về phân tích nội dung sẽ không xuất hiện trong gần 20 năm sau đó. Harold Lasswell không chỉ tiên phong trong việc nghiên cứu phân tích nội dung, mà ông còn thực sự tiên phong trong những điều thông minh khác. Ông đã cho mọi người kết nối với máy theo dõi nhịp tim và thiết bị đo độ dẫn điện của da để xác định xem một số câu nói nhất định, một số tốc độ sử dụng từ nhất định có thực sự làm tăng mạch của mọi người hay không .
Sự phát triển đa ngành: Từ khoa học chính trị đến ngôn ngữ học và hơn thế nữa
Lĩnh vực phân tích văn bản định lượng trải qua một sự thay đổi đáng kể sau Chiến tranh thế giới thứ Hai. Thế giới đã trải qua chiến tranh, và rất nhiều người đã đầu tư vào việc giải mã, cố gắng dạy máy tính giải mã hệ thống mã của kẻ thù trong giao tiếp. Dưới đây là một dòng thời gian về phân tích văn bản định lượng
:
- 1934: Lasswell tạo ra số lượng từ khóa đầu tiên
- 1934: Vygotsky tạo ra phân tích tường thuật định lượng đầu tiên
- 1950: Gottschalk sử dụng phân tích nội dung để theo dõi các chủ đề của người Freud
- 1950: Turing áp dụng AI vào văn bản
- 1952: Berelson xuất bản sách giáo khoa đầu tiên về phân tích nội dung
- 1954: Bản dịch tự động đầu tiên của văn bản (Thí nghiệm Georgetown)
- 1963: Mstella và Wallace phân tích các bài báo liên bang
- 1965: Tomashevsky chính thức hóa thêm Phân tích tường thuật định lượng
Năm 1985, nhà khoa học chính trị Phil Schrodt giới thiệu mã hóa sự kiện tự động .
Năm 1986, James Pennebaker, nhà tâm lý học xã hội, đã phát triển LIWC .
Năm 1998, Moore Phân tích văn hóa định lượng .
Năm 1999, Bearman et al. áp dụng phương pháp Mạng cho tường thuật .
Năm 2001, Blei et al. phát triển LDA .
MALLET được tạo năm 2002 .
Năm 2005, Quinn et al. sử dụng phân tích diễn văn chính trị bằng các mô hình chủ đề .
Năm 2010, King và Hopkins đã đưa Học tập có giám sát vào dòng chính .
Công cụ cho Hội thảo Văn bản tại Washington năm 2010 .
Như đã đề cập, đây có lẽ là một trong những lĩnh vực đa ngành nhất. Nó sẽ không thể thực hiện được nếu không có sự hợp tác của các nhà lý luận văn học, nhà khoa học chính trị, nhà xã hội học, nhà khoa học máy tính, nhà ngôn ngữ học, v.v. .