Paano natututo ang mga computer ng mga pattern mula sa data upang makagawa ng mga hula, rekomendasyon, at pagpapasya

Machine Learning

Ang machine learning ay isang sangay ng artificial intelligence kung saan natututo ang mga computer system ng mga pattern mula sa data sa halip na tahasang nakaprograma para sa bawat panuntunan. Pinapagana nito ang mga rekomendasyon, ranggo sa paghahanap, pagtuklas ng panloloko, pagkilala sa pagsasalita, mga tool sa medikal na imaging, pagtataya, pagsasalin, robotics, at maraming modernong AI system.

Pangunahing ideya

Matuto ng mga pattern mula sa data

Mga pangunahing uri

Pinangangasiwaan, hindi pinangangasiwaan, pampalakas na pag-aaral

Ginagamit para sa

Paghuhula, pag-uuri, pagraranggo, kontrol

Biswalisasyon ng artificial neural network na natututo ng pattern mula sa mga data point. — Gumagamit ang mga machine learning system ng data upang matuto ng mga pattern na makakatulong sa prediksyon, rekomendasyon, klasipikasyon, at pagpapasya.Tingnan ang larawan sa orihinal na site

Ano ang machine learning

Ang machine learning ay isang paraan upang bumuo ng mga computer system na umuunlad sa isang gawain sa pamamagitan ng pag-aaral mula sa mga halimbawa, karanasan, o feedback. Sa halip na isulat ang bawat panuntunan sa pamamagitan ng kamay, pumili ang mga developer ng modelo, magbigay ng data, tumukoy ng layunin, at hayaan ang isang algorithm na ayusin ang mga panloob na parameter. Ang resulta ay isang system na maaaring gumawa ng mga hula, mag-uri-uriin ang mga input, mag-ranggo ng mga opsyon, makakita ng mga pattern, o pumili ng mga aksyon sa mga bagong sitwasyon.

Paano gumagana ang pag-aaral mula sa data

Ang isang machine learning project ay karaniwang nagsisimula sa data: mga larawan, text, mga transaksyon, pagbabasa ng sensor, medikal na pag-scan, pag-click, audio, o iba pang mga tala. Ang modelo ay naghahanap ng mga pattern na nagkokonekta ng mga input sa mga output o nagpapakita ng istraktura sa data. Sa panahon ng pagsasanay, ikinukumpara ng system ang mga output nito sa isang layunin o signal ng feedback at ina-update ang sarili nito upang mabawasan ang error. Mahalaga ang magandang data dahil kadalasang natututunan ng mga modelo ang mga shortcut, gaps, at bias na nakatago sa loob ng mga halimbawang natatanggap nila.

Pinangangasiwaang pag-aaral

Ang pinangangasiwaang pag-aaral ay gumagamit ng mga may label na halimbawa. Maaaring matuto ang isang modelo mula sa mga email na may markang spam o hindi spam, mga bahay na ipinares sa mga presyo ng pagbebenta, o mga medikal na larawang ipinares sa mga diagnosis. Ang klasipikasyon ay hinuhulaan ang mga kategorya, habang ang regression ay hinuhulaan ang mga numero. Karaniwan ang pinangangasiwaang pag-aaral dahil maraming problema sa negosyo at agham ang maaaring i-frame bilang paghula ng kilalang target mula sa mga available na feature.

Unsupervised at self-supervised learning

Ang hindi sinusubaybayang pag-aaral ay naghahanap ng istraktura na walang tahasang mga label. Maaari itong magpangkat ng mga katulad na customer, makakita ng hindi pangkaraniwang gawi, bawasan ang kumplikadong data sa mas simpleng representasyon, o magbunyag ng mga nakatagong pattern. Ang self-supervised learning ay lumilikha ng mga signal ng pagsasanay mula sa data mismo, tulad ng paghula ng mga nawawalang salita o mga bahagi ng larawan. Maraming mga modernong modelo ng wika at pangitain ang gumagamit ng mga self-supervised na pamamaraan bago ibagay sa mga partikular na gawain.

Pagpapatibay ng pag-aaral

Ang reinforcement learning ay nagsasanay sa isang ahente na gumawa ng mga desisyon sa pamamagitan ng mga gantimpala at mga parusa. Sinasaliksik ng system ang mga aksyon, inoobserbahan ang mga resulta, at sinusubukang i-maximize ang pangmatagalang reward. Ito ay kapaki-pakinabang para sa mga laro, robotics, paglalaan ng mapagkukunan, mga diskarte sa rekomendasyon, at mga problema sa pagkontrol, ngunit maaari itong maging mahirap dahil ang mga tunay na kapaligiran ay maingay, sensitibo sa kaligtasan, at mahal upang mag-eksperimento.

Pagsasanay, pagsubok, at pagsusuri

Ang isang modelo na mahusay na gumaganap sa data ng pagsasanay ay maaari pa ring mabigo sa bagong data. Kaya naman gumagamit ang machine learning ng validation at test set, benchmark, error analysis, at monitoring. Ang pagsusuri ay nakasalalay sa gawain: ang katumpakan ay maaaring mahalaga para sa pag-uuri, ngunit ang katumpakan, pag-recall, pagkakalibrate, pagiging patas, latency, katatagan, at gastos ay maaaring mas mahalaga sa mga tunay na sistema. Ang layunin ay hindi lamang isang mataas na marka; ito ay maaasahang pag-uugali sa ilalim ng makatotohanang mga kondisyon.

Deployment at mga panganib

Nagiging consequential ang machine learning kapag na-deploy ito sa mga produkto, lugar ng trabaho, ospital, bangko, paaralan, transportasyon, at mga pampublikong sistema. Kasama sa mga panganib ang mga bias na resulta, pagtagas sa privacy, labis na kumpiyansa, mahinang seguridad, mahinang pagpapaliwanag, pag-drift ng data, feedback loop, at maling paggamit. Ang mga responsableng team ay nagdodokumento ng mga pinagmumulan ng data, mga limitasyon sa pagsubok, pinananatiling sangkot ang mga tao kung saan mataas ang stake, sinusubaybayan ang performance pagkatapos ilunsad, at binibigyan ang mga user ng makabuluhang paraan upang labanan o maunawaan ang mahahalagang desisyon.

Bakit ito mahalaga

Mahalaga ang machine learning dahil ginagawa nitong automated na tulong ang data sa laki. Nakakatulong itong makakita ng panloloko, magsalin ng mga wika, magrekomenda ng content, tumuklas ng mga molekula, mahulaan ang demand, matukoy ang stress ng crop, maghatid ng ruta, magsuri ng siyentipikong data, at power generative AI. Ito ay hindi magic, bagaman. Ito ay isang hanay ng mga istatistikal at computational na pamamaraan na ang halaga ay nakasalalay sa kalidad ng data, maingat na layunin, mahusay na pagsusuri, at paghatol ng tao.

Mga pangunahing termino

Modeloisang mathematical o computational system na nagmamapa ng mga input sa mga output.
Data ng pagsasanaymga halimbawang ginamit upang ayusin ang isang modelo sa panahon ng pag-aaral.
Mga tampokinput signal o mga sukat na ginagamit ng isang modelo.
Labelang target na sagot sa supervised learning.
Paglalahatkung gaano kahusay ang pagganap ng isang modelo sa bagong data lampas sa mga halimbawa ng pagsasanay nito.

Mga karaniwang gawain

Pag-uurimagtalaga ng input sa isang kategorya, gaya ng spam o hindi spam.
Regressionhulaan ang isang numero, gaya ng presyo, demand, o temperatura.
Clusteringpangkatin ang mga katulad na halimbawa nang walang paunang natukoy na mga label.
Rankingmag-order ng mga item ayon sa kaugnayan, pagiging kapaki-pakinabang, o posibilidad.
Pagtukoy ng anomalyatukuyin ang mga hindi pangkaraniwang pattern na maaaring magpahiwatig ng mga error, pandaraya, o mga pagkakamali.

Mga modelong pamilya

Ang mga linear na modelo ay simple, mabilis, at kapaki-pakinabang na mga baseline para sa maraming gawain sa paghula.
Ang mga puno ng desisyon at random na kagubatan ay naghahati ng data sa mga sangay na tulad ng panuntunan.
Ang gradient boosting ay madalas na gumaganap nang mahusay sa structured na data ng negosyo at tabular.
Gumagamit ang mga neural network ng mga layer ng mga natutunang representasyon at kapangyarihan ng mas malalim na pagkatuto.
Ang mga transformer ay mga neural na arkitektura na malawakang ginagamit sa modernong wika, paningin, at mga sistemang multimodal.

Mga tanong na itatanong

Anong desisyon o hula ang aktwal na sinusuportahan ng modelo?
Nagagamit ba ang data ng pagsasanay, kasalukuyan, ayon sa batas, at etikal?
Anong mga uri ng mga pagkakamali ang pinakanakakapinsala, at sino ang sasagutin ang gastos?
Paano susubaybayan ang modelo kapag nagbago ang totoong mundo?
Kailan dapat suriin, i-override, o i-audit ng isang tao ang output ng modelo?