Cách máy tính học các mẫu từ dữ liệu để đưa ra dự đoán, đề xuất và quyết định

Học máy

Học máy là một nhánh của trí tuệ nhân tạo trong đó hệ thống máy tính học các mẫu từ dữ liệu thay vì được lập trình rõ ràng cho mọi quy tắc. Nó hỗ trợ các đề xuất, xếp hạng tìm kiếm, phát hiện gian lận, nhận dạng giọng nói, công cụ hình ảnh y tế, dự báo, dịch thuật, robot và nhiều hệ thống AI hiện đại.

Ý tưởng cốt lõi

Tìm hiểu các mẫu từ dữ liệu

Các loại chính

Học tập có giám sát, không giám sát, tăng cường

Dùng cho

Dự đoán, phân loại, xếp hạng, kiểm soát

Hình trực quan hóa mạng nơ-ron nhân tạo học một mẫu từ các điểm dữ liệu. — Hệ thống học máy dùng dữ liệu để học các mẫu có thể hỗ trợ dự đoán, đề xuất, phân loại và ra quyết định.Xem hình ảnh trên trang gốc

Học máy là gì

Học máy là một cách để xây dựng hệ thống máy tính cải thiện một nhiệm vụ bằng cách học hỏi từ các ví dụ, kinh nghiệm hoặc phản hồi. Thay vì viết mọi quy tắc bằng tay, các nhà phát triển chọn một mô hình, cung cấp dữ liệu, xác định mục tiêu và để thuật toán điều chỉnh các tham số nội bộ. Kết quả là một hệ thống có thể đưa ra dự đoán, phân loại đầu vào, xếp hạng các tùy chọn, phát hiện các mẫu hoặc chọn hành động trong các tình huống mới.

Cách học từ dữ liệu hoạt động

Một dự án học máy thường bắt đầu bằng dữ liệu: hình ảnh, văn bản, giao dịch, thông tin cảm biến, bản quét y tế, cú nhấp chuột, âm thanh hoặc các bản ghi khác. Mô hình tìm kiếm các mẫu kết nối đầu vào với đầu ra hoặc tiết lộ cấu trúc trong dữ liệu. Trong quá trình đào tạo, hệ thống so sánh kết quả đầu ra của nó với tín hiệu mục tiêu hoặc phản hồi và tự cập nhật để giảm lỗi. Dữ liệu tốt đóng vai trò quan trọng vì các mô hình thường tìm hiểu các lối tắt, khoảng trống và thành kiến ẩn bên trong các ví dụ mà chúng nhận được.

Học tập có giám sát

Học có giám sát sử dụng các ví dụ được dán nhãn. Một mô hình có thể học hỏi từ những email được đánh dấu là thư rác hoặc không phải thư rác, những ngôi nhà được ghép với giá bán hoặc hình ảnh y tế được ghép với các chẩn đoán. Phân loại dự đoán các danh mục, trong khi hồi quy dự đoán các con số. Học có giám sát là phổ biến vì nhiều vấn đề kinh doanh và khoa học có thể được đóng khung dưới dạng dự đoán mục tiêu đã biết từ các tính năng có sẵn.

Học tập không giám sát và tự giám sát

Học không giám sát tìm kiếm cấu trúc không có nhãn rõ ràng. Nó có thể nhóm các khách hàng giống nhau, phát hiện hành vi bất thường, giảm dữ liệu phức tạp thành các biểu diễn đơn giản hơn hoặc tiết lộ các mẫu ẩn. Học tập tự giám sát tạo ra các tín hiệu huấn luyện từ chính dữ liệu, chẳng hạn như dự đoán các từ hoặc phần hình ảnh bị thiếu. Nhiều mô hình ngôn ngữ và hình ảnh hiện đại sử dụng các phương pháp tự giám sát trước khi điều chỉnh cho phù hợp với các nhiệm vụ cụ thể.

Học tăng cường

Học tăng cường đào tạo một tác nhân đưa ra quyết định thông qua phần thưởng và hình phạt. Hệ thống khám phá các hành động, quan sát kết quả và cố gắng tối đa hóa phần thưởng dài hạn. Nó hữu ích cho các trò chơi, robot, phân bổ tài nguyên, chiến lược đề xuất và các vấn đề kiểm soát, nhưng có thể khó khăn vì môi trường thực ồn ào, nhạy cảm về an toàn và tốn kém để thử nghiệm.

Đào tạo, kiểm tra và đánh giá

Một mô hình hoạt động tốt trên dữ liệu huấn luyện vẫn có thể bị lỗi trên dữ liệu mới. Đó là lý do tại sao học máy sử dụng các bộ xác thực và kiểm tra, điểm chuẩn, phân tích lỗi và giám sát. Đánh giá phụ thuộc vào nhiệm vụ: độ chính xác có thể quan trọng đối với việc phân loại, nhưng độ chính xác, thu hồi, hiệu chuẩn, công bằng, độ trễ, độ bền và chi phí có thể quan trọng hơn trong các hệ thống thực. Mục tiêu không chỉ là điểm cao; đó là hành vi đáng tin cậy trong điều kiện thực tế.

Triển khai và rủi ro

Học máy trở nên quan trọng khi nó được triển khai trong các sản phẩm, nơi làm việc, bệnh viện, ngân hàng, trường học, giao thông và hệ thống công cộng. Rủi ro bao gồm kết quả sai lệch, rò rỉ quyền riêng tư, tự tin thái quá, bảo mật yếu, khả năng giải thích kém, trôi dạt dữ liệu, vòng phản hồi và sử dụng sai mục đích. Các nhóm có trách nhiệm ghi lại các nguồn dữ liệu, kiểm tra các giới hạn, thu hút con người tham gia ở những nơi có mức độ rủi ro cao, giám sát hiệu suất sau khi ra mắt và cung cấp cho người dùng những cách có ý nghĩa để tranh luận hoặc hiểu rõ các quyết định quan trọng.

Tại sao nó quan trọng

Học máy đóng vai trò quan trọng vì nó biến dữ liệu thành hỗ trợ tự động trên quy mô lớn. Nó giúp phát hiện gian lận, dịch ngôn ngữ, đề xuất nội dung, khám phá các phân tử, dự đoán nhu cầu, xác định tình trạng căng thẳng của cây trồng, định tuyến giao hàng, phân tích dữ liệu khoa học và tạo sức mạnh cho AI. Tuy nhiên, đó không phải là phép thuật. Nó là một tập hợp các phương pháp thống kê và tính toán có giá trị phụ thuộc vào chất lượng dữ liệu, mục tiêu cẩn thận, đánh giá tốt và phán đoán của con người.

Thuật ngữ chính

Mô hìnhmột hệ thống toán học hoặc tính toán ánh xạ đầu vào thành đầu ra.
Dữ liệu huấn luyệncác ví dụ được sử dụng để điều chỉnh mô hình trong quá trình học.
Các tính năngtín hiệu đầu vào hoặc phép đo được sử dụng bởi một mô hình.
Nhãncâu trả lời mục tiêu trong học tập có giám sát.
Khái quát hóamô hình hoạt động tốt như thế nào trên dữ liệu mới ngoài các ví dụ đào tạo của nó.

Nhiệm vụ chung

Phân loạichỉ định đầu vào cho một danh mục, chẳng hạn như thư rác hoặc không phải thư rác.
Hồi quydự đoán một con số, chẳng hạn như giá cả, nhu cầu hoặc nhiệt độ.
Phân cụmnhóm các ví dụ tương tự nhau mà không có nhãn được xác định trước.
Xếp hạngsắp xếp các mục theo mức độ liên quan, tính hữu ích hoặc khả năng xảy ra.
Phát hiện bất thườngxác định các mẫu bất thường có thể báo hiệu lỗi, gian lận hoặc sai sót.

Gia đình kiểu mẫu

Các mô hình tuyến tính là những đường cơ sở đơn giản, nhanh chóng và hữu ích cho nhiều nhiệm vụ dự đoán.
Cây quyết định và rừng ngẫu nhiên chia dữ liệu thành các nhánh giống như quy tắc.
Tăng cường độ dốc thường hoạt động tốt trên dữ liệu dạng bảng và dữ liệu có cấu trúc.
Mạng lưới thần kinh sử dụng các lớp biểu diễn đã học và cung cấp nhiều sức mạnh cho việc học sâu.
Transformers là kiến trúc thần kinh được sử dụng rộng rãi trong các hệ thống ngôn ngữ, thị giác và đa phương thức hiện đại.

Câu hỏi để hỏi

Mô hình thực sự hỗ trợ quyết định hoặc dự đoán nào?
Dữ liệu đào tạo có mang tính đại diện, hiện hành, hợp pháp và có thể sử dụng được về mặt đạo đức không?
Những loại lỗi nào có hại nhất và ai phải chịu hậu quả?
Mô hình sẽ được giám sát như thế nào khi thế giới thực thay đổi?
Khi nào con người nên xem xét, ghi đè hoặc kiểm tra đầu ra của mô hình?