Chia sẻ Xác Suất Thống Kê Tiếng Anh Là Gì, Nghĩa Của Từ : Distrribution

Tổng hợp Xác Suất Thống Kê Tiếng Anh Là Gì, Nghĩa Của Từ : Distrribution là chủ đề trong content hôm nay của Kí tự đặc biệt Đao Tháp. Đọc bài viết để biết đầy đủ nhé.

Lý thuyết xác suất

1.1 Căn bản: Lý thuyết xác suất cho chúng ta một ngôn ngữ để mô tả sự ngẫu nhiên (randomness). Đối tượng cơ bản nhất của LTXS là các biến ngẫu nhiên (random variables). Để định nghĩa một biến ngẫu nhiên thì cần một hàm phân bố (distribution function), qua đó có thể định nghĩa được các khái niệm như trung bình (mean) và phương sai (variance). Standard deviation gọi là độ lệch chuẩn. Mean và variance là các phiếm hàm (functionals), được áp dụng cho một hàm phân bố hoặc một biến ngẫu nhiên. Hàm phân bố nếu liên tực tuyệt đối với một độ đo chuẩn (?) như Lebesgue thì có thể được biểu diễn bởi hàm mật độ (density), theo định lý Radon-Nikodym.

Bạn đang xem: Xác suất thống kê tiếng anh là gì

Cơ sở toán học của lý thuyết xác suất là thuyết độ đo (measure theory), nhưng việc chính của các xác suất gia (?) (probablist) là xây dựng phát triển cáng nhiều loại đo đo xác suất càng tốt. Nói chuyện với một chuyên gia độ đo không thể không định nghĩa một đại số sigma (sigma-algebra). Nói chuyện với một chuyên gia xác suất thì rất nhiều khi khái niệm này ẩn rất kỹ. Công cụ chính của các XSG chính là khái niệm độc lập (independence), và mạnh mẽ hơn là độc lập có điều kiện (conditional independence). Cho nên dân toán thường trêu LTXS chẳng qua là thuyết độ đo + độc lập. Vậy sự khác biệt giữa một độ đo xác suất và những biến ngẫu nhiên là gì? Theo David Aldous thì đó là sự khác biệt giữa recipe để làm bánh và những cái bánh. Hiểu được sự khác biệt này thì mới làm được bước nhảy từ lý thuyết độ đo khô khan sang lý thuyết xác suất tươi mát hơn.

1.2 Độc lập và hội tụ: Khái niệm độc lập cho ta một loạt các định luật cơ bản của LTXS. Tất cả đều xoay quanh hiện tượng tập trung của độ đo (concentration of measure). Bắt đầu là luật các số lớn (có phiên bản luật mạnh (strong law) và luật yếu). Luật giới hạn trung tâm (Central limit theorem) nhắc rằng sample mean (mẫu trung bình) có quy luật bình thường (normal/Gaussian) khi số mẫu tiến đến vô hạn. Các định luật này đều có sử dụng các khái niệm hội tụ (convergence) trong giải tích. Hội tụ gần chắc (almost sure), hội tụ về phân bố hoặc về luật (convergence in distribution/ in law). Ngoài luật số lớn còn có luật các số nhỏ (hay luật các hiện tượng hiếm có — law of rare events), cho ta biết khi nào thì mẫu trung bình có quy luật Poisson. Không phải ngẫu nhiên, Gaussian và Poisson là hai hàm phân bố căn bản nhất — là những viên gạch cho toàn bộ lâu đài XS.

Khái niệm độc lập và độc lập có điều kiện là những chất keo để gắn kết các biến xác suất với nhau, qua đó cho ta các hàm xác suất cho các vật thể toán học có cấu trúc phức tạp hơn. Một dạng độc lập có điều kiện hay dùng là tính chất Markov. Ngoài chất keo độc lập, còn có một chất keo nữa rất hữu dụng, đó là tính hoán chuyển được (exchangeability). Nếu tính độc lập là nền tảng cho các phương pháp suy diễn tần số (frequentist) , thì tính hoán chuyển được lại là cơ sở nền tảng cho các phương pháp suy diễn Bayesian. Tính hoán chuyển được đang được mở rộng ra thành hoán chuyển từng phần (partial exchangeability), một khái niệm quan trọng để phái triển các độ đo cho các vật thể tổ hợp (combinatorial object) rời rạc và phức tạp.

1.3 Quá trình ngẫu nhiên: LTXS phát triển rất nhiều hàm phân bố không chỉ cho các biến xác suất scalar (?) đơn giản, mà người ta còn sáng tạo ra các hàm phân bố cho các cấu trúc toán học phức tạp, nhiều chiều hơn. Chúng ta bắt đầu nói chuyện đến hàm phân bố cho những tập các hàm số đo được (measurable functions), và hàm phân bố cho các độ đo ngẫu nhiên (random measures). Hàm phân bố cho các vật thể vô hạn chiều này gọi chung là các quá trình ngẫu nhiên (stochastic processes). Cách thức khẳng định sự tồn tại là qua định lý của bác Kolmogorov, cho phép ta hiểu về các hàm phân bố cho không gian vô hạn chiều từ các điều kiện nhất quán (consistency) của độ đo cho các cylinder sets. Đây là cách để chúng ta xây dựng được các hàm phân bố cho quá trình Gauss (Gaussian processes), quá trình Dirichlet (Dirichlet process), v.v.

Một cách hữu hiệu để xây dựng một quá trình stochastic là quay lại với khái niệm độc lập, và đẩy khái niệm này đến giới hạn. Công cụ ở đây là nhìn vào phép biến đổi Fourier (Fourier transform) của các hàm phân bố. Theo ngôn ngữ XS thì khái niệm này gọi là hàm tính cách (characteristic function). Để đẩy khái niệm độc lập tới giới hạn thì ta cần khái niệm các hàm phân bố khả phân vô hạn (infinitely divisible). Khái niệm tiếp theo là các hàm phân bố ổn định (stable distribution). Gauss và Poisson chính là hai hàm phân bố ổn định — không phải là “ngẫu nhiên” nếu chúng ta quay về các luật số lớn và số nhỏ nhắc ở trên. Max-stable là một họ phân bố cực đại ổn định.

Các quá trình ngẫu nhiên có tính chất gia tăng độc lập (independent increment) gọi là quá trình Lévy. Tổng quát hơn một chút là các độ đo hoàn toàn độc lập (completely random measures). Định lý biểu diễn Lévy-Khintchine cho chúng ta biết rõ hàm tính cách của các quá trính stochastic này là gì, thông qua độ đo Lévy (Levy measure). Chọn độ đo Lévy thích hợp (beta, gamma, v.v.) thì ta sẽ có một quá trính stochastic tương ứng. Định lý này cho ta thấy tại sao Gauss và Poisson lại trở thành các viên gạch chỉ của các lâu đài xác suất đồ sộ: Theo định lý Lévy-Itó, dựa trên biểu diễn L-K thì tất cả các quá trính Lévy đều có thể được decompose (phân rã) (phân tách) thành tổng của ba quá trình stochastic độc lập, một là quá trình Wiener (một dạng quá trình Gauss), với quá trình phức hợp (compound) Poisson, và một là quá trình martingale.

Rất khó tưởng tượng các tập con đo được của sigma đại số đối với các quá trính ngẫu nhiên. Thay vì hình dung sigma đại số (recipe làm bánh) thì ta có thể mô tả những cái bánh. Nếu quá trình được liệt kê bởi tham số thời gian, thì một cái bánh ở đây có thể hiểu là một lối mẫu (sample path). Với một số quá trình ngẫu nhiên thì có thể mô tả cách tạo mẫu từ một quá trình ngẫu nhiên bằng phương pháp nhặt mẫu từ giỏ Pólya (Pólya’s urn). Rất nhiều quá trình ngẫu nhiên có thể được mô tả bằng biểu diễn bẻ gậy (stick-breaking representation). Theo biểu diễn này thì cần các nguyên tử (atom) và các mẩu gậy (stick-breaking weight). Cách thức bẻ gậy và nhặt nguyên tử đều dựa theo cơ sở của độc lập có điều kiện, một chất keo kỳ diệu cho phép ta mô tả các cấu trúc phức tạp bằng các nguyên liệu giản đơn hơn.

Xem thêm: Buồng Trứng đa Nang Là Gì, Dấu Hiệu, Chuẩn đoán Và điều Trị

Được quan tâm hàng đầu là biểu hiện của giá trị kỳ vọng (expectation) của một vật thể xác suất. Liên quan là khái niệm kỳ vọng điều kiện (conditional expectation), bản thân nó cũng là một biến ngẫu nhiên. Một công cụ quan trọng là khái niệm martingale. Martingale có thể được mô tả dưới dạng một quá trình NN, tạm gọi là quá trình đánh bạc(?). Cần khái niệm filtration (hệ thống lọc). Ngoải ra ta còn có submartingale, supermartingale và semimartingale (?). Nhờ các công cụ này mà ta có thể tìm hiểu các khái niệm xác suất hữu ích như thời điểm dừng (stopping time), thời điểm chạm (hitting time), thời gian/thởi điểm vượt biên (boundary crossing time).

Một họ quá trình NN rất thông dụng là quá trình Markov (Markov process). Định nghĩa trên cơ sở hạch xác suất chuyển dịch (transition probability kernel), và khái niệm hệ thống lọc. Cần khái niệm subordinator (?), một dạng quá trình Lévy quan trọng. Local time được dịch là thời gian địa phương. Quá trình Markov cho thời gian rời rạc còn gọi là chuỗi Markov (hoặc xích Markov). Liên qua đến chuỗi Markov là lý thuyết ergodic (?). Irreducibility dịch là bất khả quy. Một vấn đề được quan tâm là thời gian hòa tan (mixing time) của chuỗi Markov. Điều kiện cần cho chuỗi Markov được hòa tan về một trạng thái phân bố bất dịch (phân bố dừng) (stationary distribution) là ergodicity, thỏa mãn phương trính cân bằng chi tiết (detailed balance). Chuỗi Markov định nghĩa cho không gian rởi rạc (dàn lattice chẳng hạn) thì sẽ trở thành quá trình đi bộ ngẫu nhiên (random walk). Gọi lattice là dàn thiên lý rất hay, thế phải phân biệt với dàn nho thế nào đây. Khái niệm coupling trong chuỗi Markov dịch là sự cặp đôi. Coupling from the past? Quá đơn giản, cặp nhau từ quá khứ! Time-homogeneous Markov process gọi là quá trình Markov đồng biến.

Nói đến quá trình ta thường nghĩ đến thời gian — cụ thể là các quá trình NN thường được hiểu là tập hợp các hàm phân bố nhất quán (consistent) được liệt kê bởi một tham số chỉ thời gian. Không nhất thiết phải như vậy. Mở rộng khái niệm tham số thời gian ra một không gian bất kỳ (ví dụ không gian Euclidean, dàn, hoặc không gian phi-Euclidean), thì ta có quá trình NN tổng quát hơn. Markov random fields sẽ được gọi là trường ngẫu nhiên Markov. Gaussian random field là trường ngẫu nhiên Gauss. Poisson point process gọi là quá trình điểm Poisson (lại quá trình, nhưng kỳ thực phải gọi là trường Poisson mời phải!) . Spatial process là quá trình không gian (?). Spatiotemporal process gọi là quá trình không-thời gian. Khái niệm phase transition rất hay trong trường ngẫu nhiên Markov của một dàn vô hạn, ta sẽ dịch là hiện tượng chuyển pha.

Một dạng quá trình NN khá hay ho gọi là empirical process (quá trình thực nghiệm). Thường được nghiên cứu để tìm hiểu về tính hiệu quả của các phương pháp suy diễn thống kê, thay vì dùng để mô tả một quá trình ngẫu nhiên trong tự nhiên. Sẽ nói ở mục sau.

Các khái niệm quan trọng khác: percolation, excursion, optional stopping

Mô hình thống kê

2.1 Căn bản. Mô hình thống kê (statistical model) cũng là mô hình xác suất, sử dụng từ các nguyên liệu được phát triến cho các hàm phân bố vá các quá trình NN trong LTXS. Cái khác ở đây là trong mô hình thống kê có một số biến ngẫu nhiên được gán nhãn là dữ liệu (data), những biến số ngẫu nhiên mà chúng ta có thể quan sát, hoặc thu thập được giá trị bằng thực nghiệm và các thiết bị công nghệ. Cho nên trọng tâm của việc xây dựng mô hình thống kê là làm sao ước lượng (estimate) /học (learn) được mô hình này từ dữ liệu, làm sao có thể đánh giá được tính hiệu quả (efficiency) hoặc tính phổ quát (generalization) của mô hình, làm sao có thể chọn ra được mô hình hữu ích (model selection/model choice).

2.2 Tham số. Để kiểm soát được độ phức tạp của mô hình thì công cụ chính ở đây là phải tham số hóa (parameterization) mô hình. Các tham số (parameter) là phần còn lại của mô hình xác suất mà chúng ta phải ước lượng, học. Đến đây có một vấn đề nho nhỏ, các tham số là một giá trị không biết nhưng không ngẫu nhiên, hay bản thân chúng là ngẫu nhiên. Có hai cách tiếp cận vấn đề này, trường phái tần suất giả dụ cách đẩu, còn trường phái Bayes thì giả dụ cách sau. Nếu các tham số là có số chiều hữu hạn, ta có một mô hình tham số (parametric model), nếu số chiều là vô hạn thì ta có mô hình phi tham số (nonparametric model). Như vậy, gọi là phi tham số không có nghĩa là không có tham số. Nếu tham số là ngẫu nhiên mà lại vô hạn chiều thì người ta gọi mô hình là mô hình phi tham số Bayes (Bayesian nonparametric model). Điều này không có nghĩa làm việc với các mô hình dạng này là theo trường phái Bayes, mặc dù trên thực tế thì phần lớn những người phát triến mô hình phức tạp nói chung và mô hình phi tham số Bayes nói riêng lại có nhãn quan Bayes. Song không nhất thiết phải vậy.

Xem thêm: Mackerel Là Gì – Mackerel In Vietnamese

2.3 Đầy đủ và thông tin. Một công cụ quan trọng trong việc tham số hóa là khái niệm thống kê đầy đủ (sufficient statistics). Để hiểu khái niệm này phải hiểu khái niệm thống kê là gì. Một thống kê là một hàm số được áp dụng vào các dữ liệu (cộng trừ nhân chia kiểu gì cũng được). Liên hệ với khmt thì thống kê chính là đầu ra (output) của một giải thuật sử dụng dữ liệu như là đầu vào. Còn thống kê đầy đủ đối với một mô hình là những thống kê chứa đựng mọi thông tin có thể có được từ dữ liệu về các tham số của mô hình. Nghĩa là nếu vứt hết dữ liệu đi, chỉ cần giữa lại các thống kê đầy đủ, vẫn không bị mất thông tin gì về mô hình. Đây có lẽ là một trong những khái niệm đẹp đẽ nhất của toàn bộ thống kê học. Sau khi quyết định được thống kê đầy đủ rồi người ta có thể biết được rằng dữ liệu phải là mẫu của một hàm phân bố có một cách tham số hóa nhất định, qua một định lý biểu diễn phân tích Fisher-Neyman (Fisher-Neyman factorization theorem). Nhắc thêm khái niệm thống kê đầy đủ là một khái niệm có tính lý thuyết thông tin (information-theoretic), có thể phát biểu bằng tính độc lập có điều kiện và các khái niệm entropy.

Chuyên mục: Hỏi Đáp