Thuật ngữ phân tích dữ liệu (data analysis) xuất hiện trong những năm 1960 đánh dấu bước ngoặt lịch sử trong sử dụng số liệu thống kê. Đến nay, cuộc cách mạng từ thời điểm đó vẫn chưa kết thúc cùng với sự phát triển mạnh mẽ của công nghệ thông tin và những thay đổi khoa học luận trong và ngoài ngành thống kê.
Một cuộc cách mạng khoa học luận do tiến bộ công nghệ khơi mào
“Sử dụng máy tính đòi hỏi từ bỏ mọi kĩ thuật được quan niệm trước khi có tính toán tự động. Tôi nói kĩ thuật, chứ không phải khoa học: các nguyên lí, hình học và đại số, của các chương trình của chúng ta đều đã được Laplace biết đến, cách đây 150 năm” (Benzécri et al., 1973, t.2, 15). Khả năng thực hiện chỉ trong vài giây những chuỗi dài phép tính phức tạp, mà trước đây cần đến nhiều tuần thao tác và tính toán, đã đảo lộn điều kiện làm việc của các nhà nghiên cứu và kéo theo những thay đổi sâu sắc các tâm tính và thực tiễn. Đến độ một số tác giả xem đây là một bước nhảy vọt lịch sử của thống kê về mặt định tính và định lượng: “Sự gia tăng tiềm năng của khối lượng và vận tốc không chỉ làm gia tăng cái có thể, nó còn làm thay đổi bản chất của điều có thể […]. Máy tính đi xa hơn cái định lượng: phẩm chất của những yêu cầu cũng thay đổi” (Fénélon, 1981, 104).
Các sử gia của phân tích dữ liệu nhấn mạnh là những nguyên lí thống kê mà phân tích này vận dụng đã được biết đến từ lâu (Benzécri, 1982; Droesbeke và Tassi, 1997, 89-95; Lebart et al., 2000, passim); duy chỉ còn thiếu các phương tiện công nghệ cho phép dễ dàng triển khai chúng (Fénélon, 1981, 68-69). Chi phí cao (về mặt thời gian xử lí và tính toán) của mọi ứng dụng thống kê lúc bấy giờ buộc nhà nghiên cứu dè sẻn trong việc cầu viện đến việc ứng dụng. Hệ quả là họ trước tiên tập trung nhiều nỗ lực vào việc thiết lập những giả thiết và mô hình lí thuyết mà các phương pháp thống kê cho phép chấp nhận hoặc bác bỏ (kiểm định ý nghĩa); hơn nữa họ buộc phải giới hạn tính toán vào một số biến hạn chế trên một tổng thể quy mô nhỏ (Bouroche và Saporta, 2002, 3; Cibois, 1984, 9-10).
Tin học cung cấp phương tiện để dễ dàng lặp lại các việc xử lí như trên, để áp dụng vào những tập kích cỡ lớn các biến và cá thể và thể hiện các kết quả dưới dạng biểu đồ nên các nhà nghiên cứu dần dần thay đổi cách tiếp cận các dữ liệu định tính. Được giải thoát khỏi việc buộc phải thiết kế trước khi tiến hành bước xử lí một tập có cấu trúc các giả thiết và dự đoán hiệu ứng của các giả thiết này trên dữ liệu của họ nên các nhà nghiên cứu có thể, nếu muốn, chọn một cách tiếp cận có tính phát hiện hơn khi xem xét dữ liệu dưới những góc nhìn khác nhau, tuỳ theo những giả thiết trong quá trình xây dựng, và thiết kế những mô hình giải thích của họ dần dần theo việc khai phá dữ liệu; như vậy, lập luận giả thiết-suy luận nhường chỗ cho một phương pháp thực nghiệm hơn tiến hành theo kiểu thử và sai.
Các mục tiêu của phân tích dữ liệu
“Phân tích dữ liệu được áp dụng vào những thống kê thô, với mục tiêu làm cho việc thao tác chúng được dễ dàng: phân tích này nằm ngay ở cuối nguồn của việc sản xuất các kết quả và ở ngay đầu nguồn của việc trình bày bằng lời văn các kết quả mà phân tích chuẩn bị, của những lập luận xác suất […] mà ta có thể tiến hành trên các thống kê này và của những nghiên cứu kinh tế, xã hội học hay những nghiên cứu khác mà các thống kê này là chất liệu (Volle, 1981, 9). Các mục tiêu này là mục tiêu của mọi thống kê mô tả: vấn đề là tính đến sự đa dạng bằng cách đơn giản hoá và sơ đồ hoá nó (Lebart et al., 2002, 1).
Có thể tiến hành việc đơn giản hoá này bằng cách chọn một số yếu tố được đánh giá là đặc biệt có ý nghĩa, hay đúc kết thông tin dưới dạng những nhân tố trừu tượng hay chỉ số. Một đơn giản hoá như thế tất yếu kéo theo việc làm nghèo dữ liệu: “Những gì ta được trong thực tiễn thì lại mất đi về độ chính xác” (Fénélon, 1981, 104). Hơn nữa, những ràng buộc cố hữu của một số kĩ thuật tạo ra một số hiện tượng nhân tạo: thay đổi một phần những dữ liệu nguyên thuỷ hay làm méo mó cấu trúc cục bộ của chúng. Chính vì thế không nên bao giờ tự bằng lòng với một mô tả duy nhất và nên nhân bội các góc nhìn.
Trong trường hợp đơn giản nhất, và cũng là trường hợp thường xảy ra nhất, dữ liệu được các nhà xã hội học phân tích hiện ra dưới dạng một bảng chéo nhau một bên là một tổng thể cá nhân và bên kia là một tập những biến. Mỗi ô của “ma trận dữ liệu” này tương ứng với một đặc tính của một cá nhân (trả lời một câu hỏi điều tra, thông tin hành chính). Có thể làm cho bảng này dễ đọc bằng hai cách: hoặc sơ lược hoá thông tin về cá nhân bằng cách xây dựng một hệ thống phân loại; hoặc đúc kết cấu trúc nối liền các biến với nhau, ví dụ dưới dạng những nhân tố.
Phân loại tự động và các hệ thống phân loại
Xây dựng một hệ thống phân loại là tập hợp các cá nhân thuộc cùng một kiểu. Gần như hầu hết các phần mềm phân loại tự động, và đây chính là mục đích của chúng, gồm có hai loại thao tác khác nhau: xác định một thước đo sự giống nhau giữa các cá nhân và hình thành những nhóm cá nhân giống nhau.
Từ một “ma trận dữ liệu”, ta có vô số cách để xác định một thước đo sự giống nhau giữa hai cá nhân (nt, 121-125). Cách đơn giản nhất được M. Adanson nêu lên từ thế kỉ XVIII là đếm những nét chung mà hai cá nhân đều có: càng có nhiều nét chung thì hai cá nhân càng giống nhau. Có những chỉ số giống nhau, với công thức phức tạp hơn; nhưng ngay cả cách thức đơn giản nhất cũng để cho nhà nghiên cứu một dư địa sáng kiến rộng. Ví dụ, nhà nghiên cứu phải quyết định trong việc tính toán chỉ số sự gần nhau về mặt ngữ nghĩa của hai câu trả lời (như “hoàn toàn đồng ý” và “gần như đồng ý”) cho một câu hỏi hay có thể lựa chọn tầm quan trọng gán cho một biến trong việc đánh giá sự giống nhau (trọng số khác biệt).
Có nhiều hình thức để tập hợp những cá nhân giống nhau. Hai cách trình bày thông dụng nhất là phân hoạch tập thể thành những lớp rời nhau và phân loại theo cấu trúc hình cây (thứ bậc); nhưng cũng có thể có những cách tập hợp có những lớp trùng lắp (một số cá nhân lai tạp thuộc hai kiểu khác nhau) hay tìm kiếm trong tổng thể những nhóm nhỏ cá nhân thuộc những kiểu rất “đậm nét” mà không cần phân loại hết mọi cá nhân (Diday và Lebart, 1977, 23-25).
Thuật toán phân hoạch được sử dụng nhiều nhất là thuật toán gộp xung quanh những “trung tâm di động” được Forgy đề xuất năm 1965 và sau đó được Diday hoàn chỉnh trong các chương trình nuées dynamiques (đám mây động). Quy trình diễn ra theo ba bước: 1/ chọn trong tổng thể bao nhiêu nhóm cá nhân (noyaux/lõi) bằng bấy nhiêu kiểu mà ta mong muốn, 2/ tiếp đó phân bổ số cá nhân còn lại vào cái lõi mà chúng gần nhất, 3/ cuối cùng tính trọng tâm của mỗi nhóm được thu được theo cách trên. Các trọng tâm này trở thành những lõi mới, và hai bước sau được lặp lại cho đến khi đạt đến một phân hoạch ổn định.
Phương pháp khéo léo này, cho phép nhanh chóng sắp xếp một số lớn cá nhân, có hai điều bất tiện: các kết quả phụ thuộc vào việc lựa chọn các “lõi” ban đầu và có khi ta thu được ít kiểu hơn mong muốn. Chính vì thế mà nên ứng dụng nhiều lần khác nhau thuật toán và tìm kiếm những “dạng mạnh”, tức là những kết quả bất biến từ ứng dụng này sang ứng dụng khác (Bouroche và Saporta, 2002, 51-54; Lebart et al., 2002, 148-152).
Phân loại theo cấu trúc hình cây lấy cảm hứng từ các phân loại trong các khoa học tự nhiên. Các phân loại này tương ứng với những nhóm lồng vào nhau: những cá nhân giống nhau nhất được gộp thành nhóm rất nhỏ, rồi các nhóm này được tập hợp thành nhóm lớn hơn và tiếp tục như vậy cho đến khi chỉ còn hai nhóm. Những tập hợp cuối cùng được biểu trưng dưới dạng một cây lộn ngược. Nhóm càng nhỏ thì càng đồng nhất và càng nhiều (và ngược lại). Lợi ích của các hệ thống phân loại này là cho phép nhà nghiên cứu lựa chọn số kiểu mong muốn.
Trong thực tiễn, các phương pháp phân loại theo thứ bậc cao dần (classification ascendante hiérarchique hay CAH) dẫn đến việc làm méo mó sự gần nhau (giống nhau) giữa các cá nhân. Điều này là dễ hiểu. Vì nếu việc gộp hai cá nhân theo mức độ giống nhau là dễ dàng thì việc gộp một cá nhân tách biệt vào một nhóm đã hình thành đặt thành vấn đề: nếu cá nhân này giống với một trong những cá nhân khác trong nhóm, làm thế nào đánh giá mức độ giống nhau của cá nhân ấy với cả nhóm? Các thuật toán thông dụng đề nghị ba lựa chọn cho việc đánh giá này: dùng chỉ số cao nhất, chỉ số thấp nhất hay trung bình của các chỉ số. Tuỳ theo tuỳ chọn, ta có những phân loại khác nhau nên khuyến cáo là nên chọn những cấu trúc ổn định trước khi thử nêu mọi kiến giải.
Có những phương pháp phân loại khác như phân loại bằng cách tách nối tiếp nhau (classification hiérarchique descendante) hay phương pháp lai tạp kết hợp các trung tâm di động và CAH (hybrid clustering; Lebart et al., 2002, 177); các phương pháp này ít thông dụng hơn. Mặt khác, có những phương pháp phân tích dữ liệu khác cũng có thể đưa đến những phân loại, cho dù đó không phải là mục tiêu chính của chúng; đó là trường hợp của phân đoạn hay của phân tích nhân tố những tương ứng. Phương pháp sau này còn có thể góp phần xác định những kiểu lí tưởng (Cibois, 1984, 139). Cuối cùng, nếu đã thiết lập một phân loại trên một tổng thể và muốn áp dụng nó vào một tổng thể khác, phân tích phân biệt cho phép phân bổ các cá nhân vào những kiểu có sẵn (Lebart et al., 2002, 251-252).
Đúc kết các biến thành nhân tố
“Những phương pháp nhân tố nhằm cung cấp những biểu trưng tổng hợp của những khối lớn trị số, thường là dưới dạng hiển thị bằng biểu đồ. Để làm việc này, người ta tìm cách giảm số các chiều của bảng dữ liệu bằng cách biểu diễn những liên kết giữa các cá nhân và các biến trong những không gian có chiều nhỏ hơn (n.t., 13).
Charles Spearman (1863-1945) |
Louis L. Thurstone (1887-1955) |
Dưới dạng ban đầu của nó (phân tích những thành phần chính hay ACP) lấy cảm hứng từ những công trình của nhà thống kê K. Pearson (1901), phân tích này được các nhà tâm lí học sử dụng (và hoàn chỉnh), đặc biệt là Spearman (1904) và Thurstone (1931). Mục đích của họ là nhận diện, từ những độ đo tâm trắc học (kết quả các trắc nghiệm) những nhân tố tương ứng với các năng khiếu trí tuệ (nhân tố G của Spearman, nhân tố chung và nhân tố đặc thù của Thurstone).
Hiện nay người ta sử dụng ACP theo quan điểm mô tả, để thay thế một số lớn biến quan trắc được bằng một số ít biến được kiến tạo (nhân tố). Ví dụ hai biến số: điểm số môn tiếng Anh và môn tiếng Pháp của học sinh trong một lớp. Nếu ta biểu diễn mỗi học sinh bằng một điểm trên một biểu đồ mà toạ độ là điểm số trong hai môn này thì ta có một đám mây những điểm. Thế mà ta có thể dùng những toạ độ khác để mô tả đám mây này: chẳng hạn, ta có thể vẽ hai đường thẳng góc đi qua trung tâm của đám mây này và có hướng bất kì; tiếp đó ta có thể quyết định phân bổ cho học sinh những điểm số võ đoán trên các toạ độ này. Ta có thể chứng minh là từ các điểm số võ đoán này tìm lại được các điểm số nguyên thuỷ của mỗi học sinh mà không mất mát thông tin.
Karl Pearson (1857-1936) |
Nếu không có bất kì quan hệ nào trong mỗi một môn học thì đám mây có dạng một vòng tròn; nhưng nếu đám mây có hình trái xoan thì hai điểm càng có tương quan khi đám mây trải dài. Pearson đã đề nghị điều chỉnh một đường thẳng vào khoảng trải dài nhất của đám mây và cho thấy là các điểm số được xác định trên đường thẳng này cho phép tìm lại nguyên thuỷ với một sự xấp xỉ nhất định, sự xấp xỉ càng tốt khi các điểm số có tương quan mạnh với nhau. Như vậy ta đã thay hai biến nguyên thuỷ bằng một chiều duy nhất (nhân tố) mà ta có thể kiến giải như là năng khiếu về các môn văn học. Một đường thẳng góc thứ hai cho phép tìm lại toàn bộ thông tin ban đầu, nhưng đóng góp này về mặt thông tin thấp hơn đóng góp của chiều đầu tiên. Do đó, nếu ta muốn đánh giá tổng quát sự thành công của học sinh trong các môn văn học thì chiều thứ nhất là một tóm tắt tốt.
Tất cả các phương pháp nhân tố đều đặt nền tảng trên lập luận này. Chúng nhằm đúc kết thành một số nhỏ chiều trừu tượng (những nhân tố) thông tin mà một số lớn biến mang đến, bằng cách xác định chiều tóm tắt thông tin tối đa (nhân tố thứ nhất), rồi chiều tóm tắt thông tin còn lại, và cứ tiếp tục như thế. Do đó các phương pháp này tiến hành bằng những xấp xỉ liên tiếp (Cibois, 1984, 66-67; Lebart et al., 2002, 185-186). Do các nhân tố được nêu theo thứ tự đóng góp thông tin giảm dần nên người sử dụng có thể tự giới hạn vào bốn hay năm nhân tố đầu để tóm tắt hầu hết thông tin chứa đựng trong các dữ liệu của mình; thậm chí người sử dụng chỉ trình bày mặt phẳng của hai nhân tố đầu hợp thành “thoả hiệp tốt nhất có thể đối với một tiêu chí điều chỉnh một không gian d chiều” (Diday, 1977, 1920).
ACP chỉ áp dụng cho các biến số (đo được). Để đúc kết một bảng tần suất (bảng chéo), người ta cầu viện đến phân tích nhân tố những tương ứng (AFC), được L. Guttman dự cảm từ năm 1941 và J.-P. Benzécri phát triển kể từ năm 1962 (Droesbeke và Tassi, 1997, 91, 95; Fénelon, 1981, 69). Phân tích này “thay thế một bảng khó đọc bằng một bảng đọc đơn giản hơn và là một xấp xỉ tốt của bảng khó đọc” (Cibois, 1985, 5). Phân tích những tương ứng bội (AFM) là sự mở rộng AFC sang những bảng có nhiều hơn hai chiều (Lebart et al., 2002, 295-298); nguyên lí của phương pháp này từng được L. Guttman phát biểu ngay từ năm 1941 (n.t, 108).
Tất cả những phần mềm phân tích dữ liệu cung cấp đầu ra là những biểu đồ thể hiện mặt phẳng do hai nhân tố xác định. Trong ACP, mỗi điểm tượng trưng một cá thể; trong AFC, các điểm trên các mặt phẳng này tượng trưng đồng thời hai tập khác nhau: tập các dòng của bảng nguyên thuỷ và tập các cột cũng của bảng đó (Bouroche và Saporta, 2002, 94; (Lebart et al., 2002, 67). Mặt khác, có thể làm hiển thị trên các biểu đồ, bên cạnh các biến được kích hoạt, được sử dụng để đúc kết các nhân tố, những biến minh hoạ có thể giúp kiến giải các kết quả.
“Rõ ràng là việc đọc các biểu đồ này đòi hỏi nhiều kinh nghiệm và thận trọng” (Diday và Lebart, 1977, 21). Do đây là phép chiếu hai chiều của một đám mây những điểm đa chiều. Nên những khoảng cách thực của những điểm này ít nhiều bị biến dạng, và việc kiến giải phải tính đến, trong số những điều khác, chất lượng biểu trưng của các khoảng cách này trong mặt phẳng; chính vì thế phân tích đúng đắn các biểu đồ đòi hỏi phải tính đến toàn bộ thông tin mà các phần mềm cung cấp.
Phân tích quan hệ giữa các biến
Điểm chung của các phương pháp nhân tố và phân loại tự động là không phân biệt trên bình diện khoa học luận các biến được tính đến trong phân tích (biến được kích hoạt). Ngược lại, thống kê “cổ điển” (suy luận hay “xác thực”) thường hay giả định một mô hình giải thích tiên nghiệm hiện tượng được nghiên cứu. Mô hình đơn giản nhất phân biệt các hiệu ứng (biến “phải giải thích”, “phụ thuộc”, hay “nội sinh”) với các nguyên nhân của chúng (“biến giải thích”, “độc lập” hay “ngoại sinh”); những mô hình tinh vi hơn còn có sự can thiệp của những “biến trung gian”, vừa là hiệu ứng vừa là nguyên nhân, thậm chí những “biến tiềm ẩn”, những nhân tố nằm bên dưới mà sự tồn tại được giả định nhưng không thể đo đạc trực tiếp được. Những phần mềm của phân tích dữ liệu tích hợp hầu hết các phương pháp cổ điển đặt cơ sở trên những mô hình như thế.
Ronald Fisher (1890-1962) |
Nếu “biến phải giải thích” là đơn nhất, người ta tìm cách ước lượng ảnh hưởng giả định trên biến này của mỗi biến giải thích; phương pháp được chọn tuỳ thuộc vào bản chất của các “biến giải thích” và vào cấu trúc của mô hình giải thích. Đối với những biến liên tục, người ta sử dụng hồi quy (đơn, riêng hay bội) mà nguyên lí bắt nguồn từ Pearson; đối với những biến danh nghĩa là phân tích phương sai (nhờ công trình của R. Fisher sau năm 1920), hồi quy logistic hay các mô hình log-tuyến tính (mà theo Powers và Xie, 2000, 11-12, bắt nguồn từ việc nghiên cứu tính cơ động xã hội); đối với những biến hỗn hợp là phân tích hiệp phương sai. Một trong những lợi ích của các phương pháp này là nhận diện hiệu ứng trên “biến phải giải thích” do tác động kết hợp của nhiều “biến giải thích” (hiệu ứng tương tác).
Mặt khác, năm 1964 Sonquist và Morgan đã hoàn chỉnh, dưới tên gọi các phương pháp phân đoạn, một biến thể của những thủ tục trên, thực hiện tách từng bước ảnh hưởng của các “biến giải thích” trên một “biến phải giải thích” có hai trị số.
Nếu ta tìm cách mô tả các quan hệ thống kê nối liền tập những “biến giải thích” và nhiều “biến phải giải thích” thì người ta vận dụng phân tích chính tắc, do Hotelling (1936) khái quát hóa hồi quy bội. Đối với những mô hình giải thích phức tạp hơn, có thể sử dụng phân tích nguyên nhân (path analysis) nếu đưa vào những “biến trung gian” (Boudon, 1971), hay các cách tiếp cận kiểu LISREL nếu giải định sự tồn tại của những “biến tiềm ẩn” giữa các “biến giải thích” và “biến phải giải thích”.
Sự phát triển của phân tích dữ liệu
Sự phát triển của phân tích dữ liệu phụ thuộc vào ba nhân tố. Thứ nhất là vào sự gia tăng hiệu năng của máy tính, cho phép xử lí những khối lượng dữ liệu ngày càng quan trọng và vào sự tự động hoá những thao tác ngày càng phức tạp.
Loạt nhân tố thứ hai là việc thiết kế những phần mềm mới, nhờ những tiến bộ của thống kê, cũng như đơn giản hơn bằng cách kết hợp hay xâu chuỗi những phương pháp hiện có; ví dụ đó là trường hợp của hybrid clustering đã nêu ở trên hay của những phần mềm như Tri-deux (Cibois, 1984) đúc kết các dữ liệu bằng phân tích nhân tố trước khi tiến hành bất kì cách xử lí nào khác. Mặt khác, trí tuệ nhân tạo đã cho ra đời data mining, “qui trình bao gồm một cách tự động sử dụng các phương pháp phân tích dữ liệu” (Jambu, 1999, 6).
Cuối cùng, sự phát triển của phân tích dữ liệu phụ thuộc vào việc đào tạo phổ biến cho những người sử dụng tiềm năng. Những người sử dụng am hiểu có thể ở cội nguồn của những yêu cầu mới, và do đó kích thích những nghiên cứu mới về thống kê, như đã từng xảy ra trong quá khứ (Desrosières, 1999, 13). Nhất là việc đào tạo những người sử dụng tinh thông phân tích dữ liệu, nghĩa là ý thức những tiềm năng và cả những giới hạn của các phương pháp này, bắt đầu bằng việc phổ biến những quy tắc của việc sử dụng đúng đắn chúng.
Các quy tắc này được những nhà thống kê phát biểu ngay từ thời khởi đầu của phân tích dữ liệu. Chúng tương ứng với cuộc cách mạng khoa học luận đang được khơi mào: “Nói một cách nghiêm ngặt, phân tích dữ liệu mời gọi người hành nghề bộ môn X thực hành một khoa học thực nghiệm trong một lĩnh vực mới chưa được thừa nhận là sự giao nhau giữa bộ môn X và thống kê mới được định nghĩa lại” (Fénélon, 1981, 74).
Khuyến nghị chính (và ít được tuân thủ nhất) là “nhân bội các quan điểm”. Để làm việc này, nên điều hoà việc chọn các biến được kích hoạt, sử dụng cùng lúc nhiều phương pháp, thăm dò các tuỳ chọn do các phần mềm cung cấp, và quan sát ngay cả tác động của những cách mã hoá khác nhau: “Những thao tác mã hoá và mã hoá lại chiếm 9/10e của công việc thực tế trong phân tích dữ liệu và 999/1000e của tính võ đoán của các kết quả” (Fénélon, 1981, 74).
Khuyến nghị thứ hai là học cách kiến giải những kết quả của phân tích và đọc đúng các biểu đồ, nhằm loại bỏ những yếu tố do phương pháp tạo ra (Diday và Lebart, 1977, 22) và nhìn thấy trong các dữ liệu những cấu trúc ổn định (bất biến).
Khuyến nghị thứ ba là “quay về với dữ liệu” để hợp thức hoá, kiến giải và thông báo các kết quả. Hiện nay, hợp thức hoá các kết quả, và do đó khả năng khái quát hoá chúng, vẫn còn là điểm yếu của phân tích dữ liệu, mặc dù, ví dụ, có sự cầu viện đến những phương pháp mô phỏng (Lebart et al., 2002, 382-385). Chính vì thế, điều quan trọng […] là phải có thể chứng minh các kết quả bằng cách sử dụng những phương pháp đơn giản hơn (Cibois, 1984, 1984, 134), như các bảng chéo, và quay về với những thống kê “cổ điển” để chứng minh các kết quả. Thật vậy thay vì đối lập nhau, cách tiếp cận mô tả (khai thác) và cách tiếp cận suy luận (xác thực) bổ sung cho nhau (n.t., 209).
BENZÉCRI J.-P. et al., L’analyse des données, Paris, Dunod, 1973, 2 vol.; Histoire et préhistoirede l’analyse des données, Paris, Dunod, 1982.
BERTIER P., BOUROCHE J.-M., Analyse des données multidimensionnelles, Paris, PUF, 1975. – BOUDON R., Les mathématiques en sociologie, Paris, PUF, 2002.
CIBOIS P., L’analyse factorielle, Paris, PUF, 1983; L’analyse des données en sociologie, Paris PUF, 1984.
DEROSIÈRES A., Les apports mutuels de la méthodologie statistique et de la sociologie, Actes des Journées de méthodologie statistique, 11-12 décembre 1996, Paris, INSEE, 1997.
DIDAY E., LEBART L., “L’analyse des données”, La Recherche, 1977, 74, 15-25.
DROESBEKE J.-J., TASSI P. (1990), Histoire de la statistique, Paris, PUF, 1997.
FÉNELON J.-P., Qu’est ce quel’analyse des données, Paris, Lefonen, 1981.
JAMBU M., Introduction au data mining: analyse intelligente des données, Paris, Eyrolles, 1998.
LEBART L., MORINRAU A., PIRON M., Statistique exploratoire multidimensionnelle, Paris, Dunod, 2002
POWERS. D.A., XIE Y., Statistical Methods for Categorical Data Analysis, San Diego, Academic Press, 2000.
VOLLE, Analyse des données, Paris, Economica, 1981.
Jean-Paul Grémy
Đại học René-Descartes (Paris V)
Nguyễn Đôn Phước dịch