Lihat dulu

Selasa, 02 Februari 2016

Hexbin Plot With Marginal Distribution




kata pengantar

Puji dan syukur kepada Tuhan Yang Maha Esa, yang telah melimpahkan rahmat-Nya kepada penyusun untuk dapat menyelesaikan makalah yang berjudul "Judul Karya Tulis Anda". Tujuan penyusunan makalah ini ialah untuk melengkapi tugas mata kuliah softkill yang dibimbing oleh Bapak I Made Wiryana
Dalam menyelesaikan makalah ini, penyusun telah mendapat bantuan dari berbagai pihak. Oleh sebab itu sudah selayaknya penyusun mengucapkan terima kasih kepada Bapak I Made Wiryana yang telah membimbing penulis dengan penuh kesabaran dan perhatian. Juga tidak lupa mengucapkan terima kasih kepada semua pihak yang telah memberikan bantuan dan tidak sempat penyusun sebutkan satu per satu.
Kami berharap semoga dengan disusunnya makalah ini dapat memberikan pengetahuan bagi para pembaca. Kami menyadari bahwa makalah ini masih jauh dari sempurna, oleh karena itu kritik dan saran dari semua pihak yang bersifat membangun selalu kami harapkan demi kesempurnaanpembuatan buku.













Jakarta, 2 febuari  2016
Penulis

Daftar isi

\
Kata Pengantar…………………………………………………………….………………….1
Daftar isi………………………………………………………………………………….……..2
BAB 1. PENDAHULUAN
1.1 Latar Belakang……………………………………………………………………..……3
1.2 Perumusan Masalah……………………………………………………………..……4
1.3 Tujuan………………………………………………………………………………………4
1.4 Mamfaat penulisan…………………………………………………………….…..4
1.5 Batasan masalah………………………………………………………………..2
BAB 2. LANDASANTEORI        
2.1Konsep………………………………………..……………………………………………………..6
2.2SUPORSISI……………………………………………………….………………………………..…8                               2.3Perbedaanvariable……………………………………………………….………………………………..…9                            2.4Teralisobjek……………………………………………………….………………………………..…9
BAB 3. Metode Penelitian                                                                                                                     3.1simplescatterplothexbin…………………………………………………..…23                                         3.2scatterplotmaterialhexbin……………………………….………………………………..…24                      3.3simplescatterplot…………………………………………………………..…26                                                                                             
BAB 4. Metode Penelitian                                                                                                                       4.1RancanganPenelitian……………………………………………………………………..…46                4.2
Fittingparametricdistributions…………………………………………………………48                                                     4.3HexbinPlots…………………………………………………….……………48                                                                               BAB 5. Penutup                                                                                                                                    5.1kesimpulan……………………….…………………….………………59                                      5.2 saran……………….……………….……………….………………63                                            
DAFTAR PUSTAKA …………………………………………………………….70



BAB I
PENDAHULUAN

1.1   Latar Belakang
Pemanfaatan teknologi industry pada teknik informatika yang makin meluas seiring dengan meningkatnya kebutuhan akan ketersediaan informasi yang akurat dan cepat dewasa ini. Hal ini merupakan salah satu elemen penting yang diperlukan bagi organisasi, baik profit maupun non-profit oriented untuk bersaing dalam ruang lingkup global. Jenis maupun derivatif dari sistem informasi telah banyak kita kenal. Bila kita ambil perguruan tinggi sebagai obyek amatan, kita akan menemukan bagai mana plot itu terbentuk
      Plot atau alur adalah struktur rangkaian kejadian dalam cerita yang disusun sebagai urutan bagian-bagian dalam keseluruhan fiksi. Dengan demikian, plot merupakan perpaduan unsur-unsur yang membangun cerita sehingga menjadi kerangka utama cerita.
Plot merupakan kerangka dasar yang amat penting. Plot mengatur bagaimana tindakan-tindakan harus berkaitan satu sama lain, bagaimana suatu peristiwa mempunyai hubungan dengan peristiwa lain, serta bagaimana tokoh digambarkan dan berperan dalam peristiwa itu.
Perrine dalam bukunya Literature: Structure, Sound and Sense menjelaskan bahwa “plot is the sequence of incident or events which the story is composed and it may conclude what character says or thinks, as well as what he does, but it leaves out description and analysis and concentrate ordinarily on major happening” (1974:41).
Robert Stanton dalam bukunya An Introduction to Fiction menyatakan “the comflict moves the story because it is generating center out of which the plot grows which becomes the core of the story’s structure. (1965: 16)
William Kenney dalam bukunya How To Analyze Fiction menyatakan “the structure of plots divided into three parts. They are the beginning which consists of the exposition on introduction, the middle which consists of conflict, complication and climax and the end which converses denouement or resolution” (1966:13).
Kemudahan-kemudahan dalam pemasukan data bagi penggunaan plot  dan pencarian buku oleh mahasiswa maupun dosen sangat diperlukan agar dapat meningkatkan minat untuk memanfaatkan sarana perpustakaan serta mengembangkannya untuk lebih baik lagi.
 1.2   Perumusan Masalah
      Masalah yang diangkat dalam karya tulis ini adalah pembuatan hexbin plot with marginal distrubution untuk dapat menambahkan dan mencari informasi data buku, pembuatan hexbin plot, digunakan untuk melakukan perhitungan hexabinery dan biner dalam perhitungan biner. Hasil yang diharapkan adalah dapat memberikan kemudahan kepada mahasiswa-mahasiswi, dan dosen untuk memasukkan dan mencari informasi. 

1.3   Tujuan Penelitian
      Tujuan dilakukannya penelitian ini antara lain :
a.       Mengetahui apa itu hexbin plot with marginal distribution
b.       Memudahkan mahasiswa dan dosen dalam memperoleh informasi buku hexbin plot with marginal distribution
c.       Memudahkan mahasiswa dalam menambahkan data buku hexbin plot with marginal distribution

 1.4   Manfaat Penelitian
      Adapun manfaat yang nantinya diharapkan dapat dicapai dengan melakukan penelitian ini, adalah:
a.       Bagi Mahasiswa
1.       Meningkatkan pemahaman teori yang diperoleh selama masa kuliah dengan mengaplikasikannya pada kasus nyata.
2.       Memenuhi salah satu prasyarat di semester 5 gunadarma
b.       Bagi Perpustakaan Jurusan Teknik informatika
1.       Mendapatkan kemudahan dalam hal menambahkan informasi buku yang ada.
2.       Memberikan pelayanan yang baik dalam hal kemudahan mendapatkan informasi buku di perpustakaan
c.       Bagi Lingkungan Luar
            Bisa mendapatkan informasi buku yang ada di Perpustakaan Jurusan teknik informatika gunadarma melalui internet.

1.5   Batasan Masalah
      Terdapat banyak faktor yang harus diidentifikasi dan dilibatkan untuk bisa membuat suatu teknik informatika mengenai hexbin plot with marginal. Namun demikian, karena keterbatasan pengetahuan dan pengalaman peneliti dalam mengidentifikasi setiap masalah yang ada pada sistem, maka perlu dilakukan pembatasan terhadap permasalahan yang diamati. Dalam hal ini batasan-batasan dan asumsi yang diambil adalah:
1.       Data pada hexbin plot with marginal distribution
2.       masalah yang ada dalam hexbin plot with marginal distribution
3.       penulisan dilalukan pada lyx






BAB II
LANDASAN TEORI
2.1 konsep
Dalam penulisan skripsi ini peneliti menggali informasi dari penulisan sebelumnya sabagai bahan perbandingan, baik mengenai  kekurangan atau kelebihan yang sudah ada. Selain itu, peneliti juga menggali informasi dari buku-buku maupun skripsi dalam rangka mendapatkan suatu informasi yang ada sebelumnya tentang teori yang berkaitan dengan judul yang digunakan untuk memperoleh landasan penulisan
Plot atau alur adalah struktur rangkaian kejadian dalam cerita yang disusun sebagai urutan bagian-bagian dalam keseluruhan fiksi. Dengan demikian, plot merupakan perpaduan unsur-unsur yang membangun cerita sehingga menjadi kerangka utama cerita.
Plot merupakan kerangka dasar yang amat penting. Plot mengatur bagaimana tindakan-tindakan harus berkaitan satu sama lain, bagaimana suatu peristiwa mempunyai hubungan dengan peristiwa lain, serta bagaimana tokoh digambarkan dan berperan dalam peristiwa itu.
Perrine dalam bukunya Literature: Structure, Sound and Sense menjelaskan bahwa “plot is the sequence of incident or events which the story is composed and it may conclude what character says or thinks, as well as what he does, but it leaves out description and analysis and concentrate ordinarily on major happening” (1974:41).

Robert Stanton dalam bukunya An Introduction to Fiction menyatakan “the comflict moves the story because it is generating center out of which the plot grows which becomes the core of the story’s structure. (1965: 16)
William Kenney dalam bukunya How To Analyze Fiction menyatakan “the structure of plots divided into three parts. They are the beginning which consists of the exposition on introduction, the middle which consists of conflict, complication and climax and the end which converses denouement or resolution” (1966:13).
Hex Bin Plot

Halaman Plot Hex Bin memungkinkan pengguna untuk plot dua variabel kontinu terhadap satu sama lain. Sebuah plot hex bin dasarnya adalah scatter plot confidentialised. Wilayah merencanakan dipecah menjadi mesh segi enam tessellating. Setiap segi enam berwarna untuk menunjukkan jumlah titik yang jatuh dalam segi enam itu. Segi enam dengan kurang dari tiga pengamatan tidak ditampilkan, dan ukuran segi enam dipilih untuk meminimalkan jumlah segi enam yang bisa ditekan dengan cara ini tetap mempertahankan resolusi berguna. Hal ini memungkinkan pengguna untuk melihat data dan menemukan hubungan tanpa membiarkan catatan individu untuk diidentifikasi.


 Untuk memilih Variabel Y, klik 'Pilih Y Variabel' tombol.

 Grafis: Pilih Variabel panel di halaman Plot Hex Bin. Ada tombol untuk memilih Y dan X variabel serta boks teks untuk memasukkan label untuk Y dan X sumbu.   Ini akan memunculkan 'Pilih Y Variabel' pop-up window. Pilih variabel yang akan Anda gunakan. Klik 'Pilih'.Grafis: Pilih Y panel Variabel dengan variabel yang dipilih, disorot dalam warna hijau, dan tombol Select disorot. Nama Y Variabel yang dipilih akan muncul di 'Terpilih Y Variabel' kotak. Anda kemudian dapat mengetik nama Label untuk Anda Y Axis dalam kotak 'Y Axis Label'. Jika Anda biarkan kosong, tidak akan ada label pada Anda Y Axis. Grafis: Pilih Variabel panel yang menggambarkan masuknya label untuk sumbu Y.Proses yang sama dapat diikuti untuk memilih dan label variabel X.Setelah Anda memilih variabel yang benar dan memberi mereka nama-nama yang sesuai, klik 'Buat Hex Bin Plot'. Hex Bin Plot akan ditampilkan di bawah ini. Untuk mengekspor Plot Hex Bin sebagai gambar PNG, klik 'Export Sebagai Gambar' link dan ikuti petunjuknya.Grafis: Contoh dari Hex Bin Plot menunjukkan Usia grafiknya terhadap Anak Lahir.Terkait Kerahasiaan Prosedur

Kernel density plot
Histogram adalah contoh minyak mentah dari kelas yang lebih umum data univariat sum - maries , yaitu , perkiraan kepadatan . densityplot ( ) , lain - tingkat tinggi func - tion dalam paket kisi , dapat digunakan untuk grafik perkiraan kepadatan kernel . Sebuah panggilan yang terlihat sangat mirip dengan histogram sebelumnya ( ) panggilan menghasilkan Gambar - ure 1.2 .
> Densityplot ( ~ gcsescore | faktor ( nilai ) , data = Chem97 , plot.points = FALSE , ref = TRUE )
Ada dua argumen yang lebih dalam panggilan ini : ref , yang menambahkan garis referensi pada 0 , dan plot.points , yang mengontrol apakah selain kepadatan , titik asli akan diplot . Menampilkan poin dapat informatif untuk dataset kecil , tapi tidak di sini , dengan masing-masing panel memiliki lebih dari 3000 poin . Kami menunjukkan kemudian ref itu dan plot.points tidak benar-benar argumen dari densityplot ( ) , melainkan dari fungsi panel default, bertanggung jawab untuk merencanakan sebenarnya dalam setiap panel






0
4
8



2
6
10


0.6




Density
0.4










0.2





0.0





0
2
4
6
8



gcsescore


 Gambar 1.3 . Dikelompokkan plot kepadatan . Perkiraan kepadatan terlihat pada Gambar 1.2 sekarang superposisi dalam satu panel , memaksa perbandingan langsung . Sebuah legenda di atas menggambarkan hubungan antara tingkat pengelompokan variabel ( nilai dalam hal ini ) dan parameter baris yang sesuai .

2.2 Superposisi
Gambar menunjukkan bahwa kedua distribusi gcsescore adalah Wegener-sekutu yang lebih tinggi untuk skor yang lebih tinggi. Pola ini akan jauh lebih mudah untuk menilai jika kepadatan yang superposed dalam panel yang sama. Hal ini dicapai oleh kami-ing skor sebagai variabel pengelompokan bukannya variable2 udara di panggilan berikut, memproduksi Gambar 1.3.
> Densityplot (~ gcsescore, data = Chem97, kelompok = skor, plot.points = FALSE, ref = TRUE,
auto.key = daftar (kolom = 3))
Argumen auto.key otomatis menambahkan legenda yang cocok untuk plot. Perhatikan bahwa itu tidak perlu untuk mengkonversi nilai ke faktor terlebih dahulu; konversi ini dilakukan secara otomatis. Hal penting lainnya adalah bahwa sama seperti dengan variabel dalam formula, ekspresi yang ditentukan sebagai argumen kelompok juga dievaluasi dalam Chem97 (argumen data). Hal ini juga berlaku untuk yang lain argumen khusus, bagian, yang kita belajar tentang nanti.

Tema penting dalam contoh yang telah kita lihat sejauh ini adalah abstraksi-tion digunakan dalam menentukan struktur plot, yang pada dasarnya ditentukan oleh jenis grafis (histogram, kepadatan plot) dan peran variabel yang terlibat (layar utama , pendingin, superposisi). Abstraksi ini adalah fundamental dalam paradigma kisi. Tentu saja, panggilan yang sederhana seperti ini tidak akan selalu su FFI ce dalam kehidupan nyata, dan kisi menyediakan sarana untuk secara sistematis
 2 .3Perbedaan antara pengelompokan dan pendingin variabel khusus
untuk grafik.kontrol dan menyesuaikan berbagai elemen yang grafis terdiri dari, termasuk sumbu penjelasan, label, dan parameter grafis seperti warna dan garis jenis. Namun, bahkan ketika salah satu berakhir dengan panggilan tampaknya kompleks, abstraksi dasar akan tetap hadir; bahwa panggilan terakhir akan biasanya tiba di dengan memulai dengan sederhana dan secara bertahap memodifikasi satu bagian pada suatu waktu.
2.4 "teralis" objek
Sebagian besar fungsi R biasa tidak menghasilkan output apapun sendiri; sebaliknya, mereka kembali obyek yang dapat diberikan ke variabel, digunakan sebagai argumen dalam fungsi lainnya, dan umumnya dimanipulasi dengan berbagai cara. Setiap objek tersebut memiliki kelas (kadang-kadang implisit) yang berpotensi menentukan perilaku fungsi yang bekerja pada mereka. Sebuah fungsi seperti sangat penting adalah fungsi cetak generik (), yang menampilkan benda dengan cara yang sesuai. Properti khusus cetak () adalah bahwa hal itu tidak selalu harus dipanggil secara eksplisit; hasil dari sebuah ekspresi dievaluasi di tingkat atas (yaitu, tidak di dalam fungsi atau loop), tetapi tidak ditugaskan untuk variabel, dicetak secara otomatis. Fungsi grafis tradisional, bagaimanapun, adalah pengecualian paradigma ini. Mereka biasanya tidak kembali sesuatu yang berguna; mereka dipanggil untuk "sisi e ff ect" menggambar pada perangkat grafis yang cocok.

Fungsi tingkat tinggi dalam paket kisi di ff er dalam hal ini dari grafis tradisional mereka Analog karena mereka tidak menarik apapun sendiri; sebaliknya, mereka kembali sebuah objek, kelas "teralis". Sebuah grafis yang sebenarnya dibuat ketika benda tersebut "dicetak" dengan metode cetak () untuk objek dari kelas ini. The di ff selisih dapat diabaikan, dan fungsi kisi digunakan seperti rekan-rekan tradisional mereka (seperti yang kita telah melakukan sejauh ini), hanya karena print () biasanya dipanggil secara otomatis. Untuk menghargai fakta ini, mempertimbangkan urutan berikut perintah.

> TP1 <- histogram (~ gcsescore | faktor (nilai), data = Chem97)
> TP2 <-
densityplot (~ gcsescore, data = Chem97, kelompok = skor, plot.points = FALSE,
auto.key = daftar (spasi = "kanan", title = "Rata"))
Ketika perintah ini dijalankan, tidak ada yang akan diplot. Bahkan, TP1 dan TP2 sekarang objek dari kelas "teralis" yang dapat, misalnya, diringkas:
> Kelas (TP2)
[1] "teralis"
> Ringkasan (TP1)
Panggilan:
histogram (~ gcsescore | faktor (nilai), data = Chem97)
Jumlah pengamatan: faktor (nilai)
0 2 4 6 8 10

3688 3627 4619 5739 6668 6681

Seperti disebutkan di atas, plot yang sebenarnya dapat ditarik dengan memanggil cetak ():

> Print (TP1)

Hal ini mungkin tampak agak unintuitive, karena print () biasanya menghasilkan output teks dalam R, tapi perlu untuk mengambil keuntungan dari cetak-ing aturan otomatis. Semakin alami

> Plot (TP1)

memiliki e sama ff ect.




2.5  hilang display Trellis

Karena doa otomatis cetak (), fungsi kisi biasanya bekerja sebagai fungsi grafis tradisional, di mana output grafis yang dihasilkan ketika pengguna memanggil fungsi. Tentu, kesamaan ini rusak dalam konteks di mana pencetakan otomatis ditekan. Hal ini terjadi, seperti telah kita lihat, ketika hasil dari panggilan kisi ditugaskan ke variabel. Sayangnya, hal itu juga terjadi dalam situasi lain di mana pengguna mungkin tidak mengharapkan itu, misalnya, dalam untuk () atau saat () loop, atau di dalam fungsi lainnya. Ini termasuk sumber () fungsi, yang sering digunakan untuk mengeksekusi skrip R eksternal, kecuali hal itu disebut dengan argumen gema set ke TRUE. Seperti (non-grafis) panggilan R biasa, solusinya adalah untuk mencetak () (atau plot ()) hasil dari panggilan kisi eksplisit.

2.6 Mengatur beberapa plot Trellis

Desain berbasis obyek ini memiliki banyak implikasi yang berguna, kepala di antara mereka menjadi kemampuan untuk mengatur beberapa menampilkan kisi pada satu halaman. Pendingin Mul-tipanel menyingkirkan kebutuhan untuk penggunaan seperti untuk sebagian besar, tapi tidak sepenuhnya. Sebagai contoh, pada Gambar 1.4 kita langsung kontras histogram bersyarat dan plot kepadatan dikelompokkan terlihat sebelumnya. Hal ini dicapai dengan menentukan sub regional untuk ditempati oleh grafik dengan cepat ketika ditarik, menggunakan argumen opsional plot () metode. Meskipun ini adalah salah satu manipulasi paling umum yang melibatkan "teralis" objek secara eksplisit, itu tidak berarti satu-satunya. Sebuah diskusi rinci "teralis" benda diberikan dalam Kami telah ditemui dua fungsi kisi dalam bab ini, histogram () dan densityplot (). Setiap menghasilkan jenis tertentu grafis statistik, bantuan-penuh diisyaratkan oleh namanya. Ini menetapkan kecenderungan umum: kisi pengguna antar-muka terutama terdiri dari ini dan beberapa fungsi lainnya seperti ini, masing-masing


                                                                                                                                         

Gambar 1.4 . Histogram bersyarat dan kepadatan petak dikelompokkan dari gcsescore dengan skor , digabungkan dalam sosok tunggal . Perbandingan jelas menggambarkan manfaat - ness superposisi ; pola varians penurunan dengan rata-rata yang jelas dalam plot kepadatan mudah kehilangan di histogram

2.8 Fungsi default Tampilan
histogram () Histogram
densityplot () Kernel Density Plot
qqmath () Teoritis Plot Quantile
qq () Dua sampel Plot Quantile
stripplot () Stripchart (Perbandingan 1-D Plot Menyebarkan)
bwplot () Perbandingan Kotak-dan-Kumis Plot
dotplot () Cleveland Dot Plot
barchart () Bar Plot
xyplot () Scatter Plot
splom () Tebar-Plot Matrix
contourplot () Kontur Plot Permukaan
levelplot () Warna Salah Tingkat Plot Permukaan
wireframe () tiga dimensi Perspektif Plot Permukaan
awan () Tiga dimensi Scatter Plot
paralel () Paralel Koordinat Plot
Tabel 1.1. Fungsi tingkat tinggi dalam paket kisi dan menampilkan default
dimaksudkan untuk menghasilkan suatu jenis grafis secara default. Daftar lengkap fungsi tingkat tinggi di kisi diberikan dalam Tabel 1.1. Bab 3 sampai 6 fokus pada kemampuan fungsi tingkat tinggi ini, menggambarkan masing-masing pada gilirannya. Fungsi memiliki banyak kesamaan: mereka masing-masing memiliki antarmuka formula yang mendukung pendingin Multipanel secara konsisten, dan menanggapi sejumlah argumen umum. Fitur-fitur umum, termasuk dasar-dasar pengkondisian Multipanel, secara singkat dijelaskan pada Bab 2, dan lebih lanjut dalam
Hubungan multivariabel sering melibatkan banyak variates terus menerus, dan kemampuan untuk mengkondisikan pada mereka berguna. Herpes zoster sebuah ord ff sarana yang sangat umum untuk melakukannya. Pendekatan paling sederhana mungkin untuk menggunakan variabel numerik untuk con-ditioning adalah untuk memperlakukan setiap nilai unik sebagai tingkat yang berbeda. Hal ini, pada kenyataannya, perilaku default dalam kisi. Namun, hal ini sering tidak membantu ketika jumlah nilai unik adalah besar. Cara lain standar untuk mengkonversi variate contin-uous menjadi variabel kategoris ordinal adalah untuk discretize itu, yaitu, untuk partisi jangkauan menjadi dua atau lebih interval yang tidak tumpang tindih, dan mengganti setiap nilai dengan hanya indikator interval untuk yang milik. Diskritisasi tersebut dapat dilakukan oleh fungsi R potong ().
Plot yang sesuai ditunjukkan pada Gambar 2.2. Pandangan dari "teralis" objek menyiratkan pemesanan linear dari paket di dalamnya, mirip dengan pemesanan elemen dalam array umum dalam R. Secara khusus, agar dimulai dengan paket yang sesuai dengan indeks pertama (tingkat) masing-masing dimensi ( pendingin vari-bisa) dan hasil dengan memvariasikan indeks dimensi pertama tercepat, kemudian kedua, dan seterusnya. Pesanan ini disebut sebagai urutan paket.
Struktur array seperti yang lain datang ke dalam bermain ketika "teralis" objek sebenarnya ditampilkan, yaitu, tata letak fisik dari panel. Sedangkan jumlah dimensi dari objek abstrak adalah sewenang-wenang, perangkat layar secara konvensional terikat untuk dua dimensi. Teralis display, khususnya, memilih untuk membagi area layar ke dalam array persegi panjang panel. Dimensi tambahan adalah ff orded dengan menyebarkan sebuah tampilan lebih beberapa halaman, yang dapat menjadi penting dalam display dengan sejumlah besar kombinasi. Semua fungsi kisi-tingkat tinggi berbagi paradigma umum yang mendikte bagaimana tata letak ini dipilih, dan memberikan argumen umum untuk menyesuaikannya sesuai situasi tertentu. Setelah tata letak ditentukan, ia mendefinisikan urutan panel, yaitu, berurutan dari panel dalam tata letak tiga-cara kolom, baris, dan halaman. The akhirnya layar dibuat dengan mencocokkan urutan paket dengan panel

2.9 Aspek rasio hebin

Aspek rasio panel adalah rasio tinggi dan lebar fisiknya. Pilihan aspek rasio sering memainkan peran penting dalam menentukan e ff efektifitas dari display. Tidak ada resep umum untuk memilih rasio aspek, dan satu sering perlu untuk sampai pada satu dengan trial and error. Dalam situasi tertentu, aspek rasio yang baik dapat secara otomatis ditentukan oleh aturan 45◦ perbankan, yang berasal dari ide berikut. Pertimbangkan display, seperti contoh di atas Oats, dimana perubahan nilai berturut-turut (diwakili oleh segmen garis) berisi informasi yang kita ingin melihat. Untuk perubahan non-nol, garis yang sesuai tumbuh curam sebagai aspek rasio meningkat, dan dangkal seperti itu berkurang. Cleveland et al. (1988) mencatat bahwa informasi ini terbaik digenggam saat orientasi segmen garis tersebut dekat dengan 45◦, dan merekomendasikan sebuah algoritma yang dapat digunakan untuk memilih rasio aspek secara otomatis berdasarkan kriteria ini. Ketika aspek = "xy" argumen ditentukan dalam panggilan-tingkat tinggi, aturan 45◦ perbankan ini digunakan untuk menghitung rasio aspek (lihat Bab 8 untuk rincian). Aspek argumen juga bisa menjadi rasio eksplisit numerik, atau string "iso", yang menunjukkan bahwa jumlah unit per cm

Sebuah Tinjauan Teknis kisi
hubungan antara jarak fisik pada layar dan jarak dalam skala data) harus sama untuk kedua sumbu. Hal ini sesuai dalam situasi di mana dua skala memiliki unit yang sama, misalnya, di plot data spasial, atau plot kurva ROC mana kedua sumbu mewakili probabilitas.
2.2.2 Tata Letak
Pilihan yang baik dari tata letak perlu mengambil aspek rasio ke rekening. Untuk membuat titik ini, mari kita lihat Gambar 2.3, yang diproduksi dengan memperbarui 6 Gambar 2.1 menggunakan aspek rasio yang dipilih oleh aturan 45◦ perbankan. Seperti yang kita lihat, tampilan default tidak membuat e ff penggunaan efektif dari ruang yang tersedia. Hal ini terkait dengan aturan-aturan yang menentukan tata letak default.
Sebuah tampilan Trellis terdiri dari beberapa panel diatur dalam ar-ray persegi panjang, mungkin mencakup beberapa halaman. Tata letak argumen menentukan pengaturan ini. Untuk spesifikasi yang tepat, tata letak harus menjadi vektor numerik memberikan jumlah kolom, baris, dan halaman di layar Multipanel. Un-kurang satu ingin membatasi jumlah halaman, unsur ketiga tidak perlu ditentukan; maka secara otomatis dipilih untuk mengakomodasi semua panel. Sistem koordinator-nate yang digunakan secara default adalah seperti sistem koordinat Kartesius: panel diambil mulai dari sudut kiri bawah, melanjutkan kanan pertama dan kemudian naik. Perilaku ini dapat diubah dengan menetapkan as.table = TRUE dalam kisi panggilan tingkat tinggi, 7 di mana panel kasus diambil dari sudut kiri, kanan dan kemudian akan turun.
Jika ada dua atau lebih variabel pendingin, default tata letak dengan panjang dua pertama dimensi, yaitu, jumlah default kolom untuk jumlah tingkat variabel pendingin pertama dan jumlah baris dengan jumlah tingkat dari variabel pendingin kedua (akibatnya, jumlah halaman secara implisit produk dari jumlah tingkat variabel pendingin yang tersisa, jika ada). Ini jelas default yang masuk akal, meskipun bertanggung jawab untuk tampilan agak canggung pada Gambar 2.3.
Cara yang jelas untuk "memperbaiki" Gambar 2.3 adalah untuk beralih urutan variabel Condi-tioning. Hal ini dapat dilakukan dengan regenerasi "teralis" objek, atau dengan hanya transposing yang sudah ada dengan menggunakan
> T (tp1.oats)
Namun, kami menggunakan pendekatan lain yang menggunakan bentuk khusus dari argumen tata letak. Elemen pertama dari tata letak dapat 0, dalam hal elemen kedua ditafsirkan sebagai (batas bawah pada) jumlah panel per halaman, meninggalkan perangkat lunak bebas untuk memilih tata letak yang tepat. Hal ini dilakukan dengan mempertimbangkan aspek rasio dan dimensi perangkat, dan kemudian memilih tata letak sehingga ruang yang ditempati oleh masing-masing panel dimaksimalkan. Hasil menggunakan ini pada petak kami data Oats diberikan pada
2 Sebuah Ikhtisar Teknis kisi
Jika hanya ada satu variabel pendingin dengan tingkat n, nilai default dari tata letak adalah c (0, n), sehingga mengambil keuntungan dari hal ini tata letak otomatis computa-tion. Ketika aspek = "isi" (default dalam banyak kasus), perhitungan ini dilakukan dengan rasio aspek awal 1, tapi di layar akhirnya panel diperluas untuk mengisi semua ruang yang tersedia.
2.2.3 Baik-tuning tata letak: antara dan melewatkan
Antara argumen dapat daftar, dengan komponen x dan y (baik biasanya 0 secara default) yang vektor numerik menentukan jumlah ruang kosong antara panel (dalam satuan ketinggian karakter). x dan y diulang untuk memperhitungkan semua panel di halaman, dan setiap komponen tambahan diabaikan. Hal ini sering berguna dalam memberikan isyarat visual memisahkan panel ke dalam blok, seperti pada Gambar 2.5.
Argumen lain yang berguna dalam fine-tuning tata letak melompat, yang ditetapkan sebagai vektor logis (SALAH default), direplikasi menjadi asalkan jumlah panel. Untuk elemen yang BENAR, posisi panel sesuai dilewati; yaitu, tidak ada yang diplot di posisi itu. Panel yang sup-berpose untuk ditarik ada sekarang ditarik di posisi panel berikutnya yang tersedia, dan posisi semua panel berikutnya yang bertemu up sesuai. Hal ini sering berguna untuk mengatur plot secara informatif.
2.3 menampilkan Dikelompokkan
Grafis teralis dimaksudkan untuk mendorong visualisasi ff efektif mudah dan e hubungan multi-variate di dataset. Seperti yang kita lihat di Bab 1, sebuah konstruksi yang kuat yang memaksa perbandingan langsung adalah superposisi, di mana data yang terkait dengan tingkat dif-ferent dari variabel pengelompokan tersebut diberikan bersama-sama dalam sebuah panel, tetapi dengan karakteristik grafis di ff berbeda-beda. Sebagai contoh, kurva erent di ff dapat ditarik di di ff warna erent atau garis jenis, atau titik dapat ditarik dengan simbol erent di ff. Superposisi biasanya lebih e ff efektif daripada pendingin Multipanel ketika jumlah tingkat variabel pengelompokan kecil. Bagi banyak fungsi kisi, menentukan argumen kelompok yang mengacu pada variabel kategoris cukup untuk menghasilkan "alami" dikelompokkan layar.
Kita telah melihat menampilkan dikelompokkan dalam Bab 1. Mungkin contoh yang paling terkenal dalam konteks grafis Teralis adalah Gambar 1.1 dari Cleveland (1993), yang diciptakan pada Gambar 2.6 menggunakan kode berikut.
> Dotplot (berbagai ~ yield | situs, barley, tata letak = c (1, 6), aspek = c (0,7),
kelompok = tahun, auto.key = daftar (spasi = "kanan"))
Plot adalah visualisasi data dari percobaan barley berjalan di Minnesota pada 1930-an (Fisher, 1971), dan dibahas secara luas oleh Cleveland (1993). Plot e ff secara efektif menggabungkan pengelompokan dan pendingin untuk menyoroti sebuah anomali dalam data tidak mudah melihat sebaliknya.



Gambar 2.6. Sebuah multiway dot plot data dari percobaan barley berjalan di Minnesota pada 1930-an. Yield diplot untuk beberapa varietas gandum, AC di enam lokasi. Di ff simbol erent digunakan untuk di ff erentiate tahun. Pengelompokan dan pendingin menggabungkan untuk menyorot sebuah anomali dalam data dari Morris. Pilihan lain halus yang meningkatkan e ff efektifitas dari layar adalah memesan panel (situs) dan y variabel (berbagai).



2.10 Anotasi: Keterangan, label, dan legenda

Dalam Gambar 2.6, seperti dalam Bab 1, kita telah dijelaskan layar dengan menambahkan legenda, atau kunci, yang menjelaskan korespondensi simbol erent di ff ke tingkat masing-masing variabel pengelompokan. Legenda seperti yang alami dalam display dikelompokkan, tetapi tidak ditarik secara default. Biasanya, yang paling sederhana (meskipun bukan yang paling umum) cara untuk menambahkan legenda cocok untuk tampilan dikelompokkan adalah untuk mengatur draw.key = TRUE dalam panggilan. Sering kunci sehingga dihasilkan perlu mengutak-atik kecil untuk mendapatkan hasil yang lebih diinginkan; ini dapat dicapai dengan menetapkan auto.key sebagai daftar dengan komponen yang sesuai. Secara umum, legenda dapat ditempatkan dalam salah satu dari empat sisi layar, dalam hal ini cukup ruang secara otomatis dialokasikan untuk mereka. Atau, mereka dapat ditempatkan di manapun di dalam layar, dalam hal ini tidak ada ruang ekstra yang tersisa, dan pengguna harus memastikan bahwa mereka tidak mengganggu tampilan sebenarnya.

Sarana umum lainnya annotating display yang menambah cap-tions bermakna dan label. Sama seperti dengan tingkat tinggi fungsi grafis tradisional, sebagian besar fungsi kisi memungkinkan penambahan empat keterangan dasar: judul utama di atas (yang ditentukan oleh argumen utama), subjudul di bagian bawah (sub), label sumbu x hanya di bawah sumbu x (xlab), dan label sumbu y di sebelah kiri sumbu y (ylab). xlab dan ylab biasanya memiliki beberapa default masuk akal, sedangkan dua lainnya dihilangkan. Label ini biasanya string teks, tetapi juga dapat menjadi "ekspresi" benda, 8 atau lebih umum, objek kotak sewenang-wenang (grobs). Tipe lain dari penjelasan langsung didukung oleh fungsi kisi adalah melalui argumen halaman. Jika ditentukan, itu harus fungsi, dan disebut setelah setiap halaman ditarik. Hal ini dapat digunakan, misalnya, untuk menandai nomor halaman di layar multipage.

Sebuah diskusi lengkap fasilitas penjelasan ini diberikan dalam Bab 9. Di sini, di Gambar 2.7, kami menyajikan salah satu contoh sederhana dengan berbagai label dan legenda. Namun, untuk sepenuhnya menghargai bahkan contoh yang sederhana ini, kita perlu belajar sedikit tentang bagaimana legenda ditentukan.

2.11 Lebih lanjut tentang legenda

Pembangunan legenda adalah sedikit lebih terlibat daripada label teks, karena mereka berpotensi memiliki struktur yang lebih. Template cukup kaya untuk kebanyakan legenda adalah satu dengan (nol, satu, atau lebih) kolom teks, titik, garis, dan persegi panjang, dengan sesuai di simbol ff erent, warna, dan sebagainya. Legenda tersebut dapat con-structed menggunakan draw.key () fungsi, yang dapat langsung digunakan untuk menambah legenda untuk plot hanya dengan menentukan daftar cocok sebagai argumen kunci dalam fungsi kisi-tingkat tinggi. Untuk membangun daftar ini, kita perlu tahu apa yang masuk ke legenda. Yang di Gambar 2.7 memiliki kolom teks dengan tingkat Variety, dan kolom poin dengan simbol yang sesuai.
Di sini kita mengalami masalah. Simbol dan warna yang digunakan secara default dalam tampilan kisi tidak ditentukan sampai plot sebenarnya ditarik, sehingga pengaturan grafis saat ini dapat diperhitungkan (lihat Bab 7 untuk rincian). Sebagai contoh, sebagian besar plot pada halaman-halaman buku ini adalah hitam dan putih, tetapi pembaca mencoba untuk mereproduksi mereka kemungkinan besar akan melakukannya secara interaktif pada terminal komputer, dan akan melihat mereka dalam warna. Dengan kata lain, ketika membuat panggilan ke xyplot (), kita tidak tahu apa parameter grafis dalam plot, dan karenanya legenda, akan menjadi. Sebuah solusi kikuk, digunakan untuk menghasilkan Gambar 2.7, adalah untuk memotong masalah dengan secara eksplisit menentukan warna dan simbol dalam panggilan itu sendiri.

> Key.variety <-

Daftar (spasi = "kanan", teks = daftar (tingkat (Oats $ Ragam)), menunjuk = daftar (pch = 1: 3, col = "hitam"))

> Xyplot (hasil ~ nitro | Block, Oats, aspek = "xy", type = "o", kelompok = Variety, kunci = key.variety, lty = 1, pch = 1: 3, col.line = "darkgrey" , col.symbol = "hitam",

xlab = "konsentrasi Nitrogen (CWT / are)", ylab = "Yield (gantang / acre)",

utama = "Hasil dari tiga varietas gandum",

sub = "Percobaan 3 x 4 split-plot dengan 6 blok")

Dalam kebanyakan kasus, solusi yang lebih baik adalah dengan menggunakan argumen auto.key, yang telah kami sediakan pada beberapa kesempatan. Bab 9 membahas masalah ini secara lebih rinci dan menjelaskan peran yang tepat dari auto.key.

28 2 A Ikhtisar Teknis kisi

2,5 Graphing data

Pada akhir hari, kegunaan grafis statistik ditentukan oleh bagaimana membuat informasi yang seharusnya untuk menyampaikan. Multipanel con-ditioning, jika digunakan, memaksakan beberapa struktur awal pada layar Teralis oleh sistematis membagi data dalam cara yang berarti. Setelah menentukan ini subset data (paket) dan tata letak mereka, mereka selanjutnya perlu digambarkan. Ini melibatkan encoding grafis dari data, biasanya dengan render sumbu yang relevan (tanda centang dan label) untuk menyediakan kerangka acuan. Untuk menampilkan Multipanel, elemen tambahan yang menjelaskan setiap panel, khususnya tingkat terkait variabel pendingin, diperlukan. Hal ini dilakukan dengan menggunakan strip, yang dapat disesuaikan atau benar-benar dihilangkan dengan menentukan strip cocok (dan dalam beberapa kasus strip.left) argumen untuk fungsi tingkat tinggi kisi (lihat Bagian 10.7 untuk rincian).
Asumsi dasar yang dibuat dalam desain Teralis adalah bahwa sifat encoding grafis akan berulang; yaitu, prosedur yang sama akan digunakan untuk memvisualisasikan setiap paket. Hal ini memungkinkan decoupling dari prosedur yang menarik data dan sumbu, yang kemudian dapat dikontrol secara terpisah. Ingat bahwa setiap panel pada layar memiliki paket terkait, subset dari seluruh data. Bentuk yang tepat dari sebuah paket akan tergantung pada fungsi tingkat tinggi yang digunakan. Mengingat resep untuk grafis, paket menentukan persegi panjang data, wilayah dua dimensi melampirkan grafis. Misalnya, dalam scatter plot bivariat ini biasanya persegi panjang yang didefinisikan oleh berbagai data; untuk histogram, sejauh horisontal persegi panjang data interval minimal berisi semua sampah, dan rentang skala vertikal dari 0 di bagian bawah dengan ketinggian bin tertinggi (yang akan tergantung pada jenis histogram ditarik) di puncak. Sepotong mungkin relevan lain dari informasi ditentukan oleh paket adalah aspek rasio yang cocok untuk data ini persegi panjang. Dalam semua menampilkan kisi, potongan-potongan informasi dihitung dengan yang disebut fungsi prepanel, yang dibahas secara rinci dalam Bab 8. Perhatikan bahwa pandangan ini tidak sepenuhnya memuaskan, karena untuk beberapa display (misalnya, scatter-plot matriks menggunakan splom () dan plot pencar tiga dimensi menggunakan cloud ()) sumbu biasa tidak memiliki arti dan prosedur tampilan data itu sendiri harus berurusan dengan skala.

2.12 Timbangan dan kapak

Untuk panel display tunggal, satu dapat melanjutkan untuk menarik sumbu dan grafis sekali persegi panjang data dan aspek rasio ditentukan. Namun, untuk mul-tipanel display, perlu ada langkah menengah menggabungkan informasi dari di ff paket berbeda-beda. Aspek rasio umum dipilih oleh beberapa bentuk rata-rata jika diperlukan. Ada tiga aturan alternatif yang tersedia untuk menentukan skala. Pilihan default adalah menggunakan persegi panjang data yang sama untuk setiap panel, yaitu, persegi panjang terkecil yang membungkus semua persegi panjang data individu. Hal ini memungkinkan perbandingan visual yang mudah antara panel tanpa con-stantly harus mengacu pada sumbu. Pilihan ini juga memungkinkan panel untuk berbagi


Gambar 2.8. Sebuah bar chart merangkum nasib penumpang kapal Titanic, diklasifikasikan berdasarkan jenis kelamin, usia, dan kelas. Plot didominasi oleh panel ketiga (laki-laki dewasa) sebagai ketinggian bar mengkodekan jumlah mutlak, dan semua panel memiliki batas yang sama.

seperangkat tanda centang dan label sumbu sepanjang batas, menghemat ruang berharga. Kadang-kadang hal ini tidak memuaskan karena rentang data dalam di ff paket erent terlalu di ff berbeda-beda. Jika data tidak memiliki dasar alami dan perbandingan yang relevan pada dasarnya dilakukan dalam hal di ff perbedaan-perbedaan, sering su FFI ces untuk memiliki di ff erent timbangan selama jumlah unit per cm adalah sama. Pilihan ketiga, terutama berguna untuk perbandingan kualitatif, adalah untuk memungkinkan skala benar-benar independen, dalam hal ini persegi panjang data untuk setiap panel ditentukan hanya dengan paket yang sesuai. Semua pilihan ini dapat dibuat selektif baik untuk sumbu. Pilihan yang memerintah menggunakan dikendalikan oleh argumen timbangan, yang juga dapat digunakan untuk mengontrol aspek-aspek lain dari sumbu an-notasi, seperti jumlah tanda centang, posisi dan label kutu, dan sebagainya. Lebih langsung, argumen xlim dan ylim memungkinkan spesifikasi eksplisit dari persegi panjang data, mengesampingkan perhitungan default. Ini merupakan topik penting dan luas, dan diberikan pertimbangan dalam Bab 8. Kami memberikan salah satu contoh sederhana di sini.

Dataset Titanic memberikan (sebagai array empat dimensi) cross-tabulasi nasib 2.201 penumpang kapal yang terkenal, dikategorikan oleh status ekonomi (kelas), jenis kelamin, dan usia. Untuk menggunakan data dalam plot kisi, akan lebih mudah untuk memaksa ke dalam frame data. Usaha pertama kami mungkin terlihat seperti berikut, yang menghasilkan Gambar 2.8.

> Barchart (Kelas ~ Freq | Sex + Age, data = as.data.frame (Titanic), kelompok = Bertahan, tumpukan = TRUE, tata letak = c (4, 1), auto.key = daftar (title = "Bertahan" , kolom = 2))

Gambar 2.9. Kelangsungan hidup di antara di ff subkelompok erent penumpang di Titanic, dengan erent skala horisontal di ff di setiap panel. Ini menekankan proporsi korban dalam setiap subkelompok, daripada angka mutlak. Proporsi yang selamat adalah yang terkecil di antara penumpang kelas ketiga, meskipun jumlah absolut yang selamat tidak terlalu rendah dibandingkan dengan kelas-kelas lain.

Semua rencana ini benar-benar memberitahu kita bahwa ada lebih banyak laki-laki daripada perempuan kapal (khususnya di kalangan awak, yang merupakan kelompok terbesar), dan bahwa ada anak-anak bahkan lebih sedikit; yang, meskipun benar, biasa-biasa saja. Titik kita benar-benar ingin membuat adalah bahwa "menyelamatkan perempuan dan anak-anak pertama" kebijakan tidak bekerja dengan baik untuk penumpang kelas ketiga. Hal ini lebih mudah terlihat jika kita menekankan proporsi korban dengan memungkinkan skala horisontal independen untuk panel erent di ff. Gambar 2.9 dibuat menggunakan

> Barchart (Kelas ~ Freq | Sex + Age, data = as.data.frame (Titanic), kelompok = Bertahan, tumpukan = TRUE, tata letak = c (4, 1), auto.key = daftar (title = "Bertahan" , kolom = 2),

timbangan = daftar (x = "bebas"))



2.13  Fungsi panel

Setelah sisa struktur (tata letak, persegi panjang data, penjelasan) di tempat, paket diplot dalam panel yang tepat. The merencanakan sebenarnya dilakukan oleh fungsi yang terpisah, yang dikenal sebagai fungsi panel dan ditetapkan sebagai argumen panel, yang dieksekusi sekali untuk setiap panel dengan paket data terkait sebagai argumen. Setiap fungsi kisi-tingkat tinggi memiliki fungsi panel standar sendiri. Dengan konvensi, nama fungsi ini diberikan oleh "panel." Diikuti dengan nama fungsi tingkat tinggi. Sebagai contoh, fungsi panel default untuk barchart () disebut panel.barchart, bahwa untuk histogram () adalah panel.histogram, dan sebagainya. Bab-bab yang tersisa di Bagian I menggambarkan berbagai fungsi tingkat tinggi dan fungsi panel default secara lebih rinci. Banyak yang dapat dicapai dengan fungsi panel default, tapi satu tidak kembali stricted kepada mereka dengan cara apapun. Bahkan, itu adalah kemampuan untuk menentukan fungsi panel kustom yang memungkinkan pengguna untuk membuat novel yang Teralis menampilkan mudah, proses dijelaskan secara mendalam di. Bahkan ketika fungsi panel yang telah ditetapkan memadai, pemahaman tentang proses ini dapat meningkatkan kemampuan menggunakannya e ff secara efektif. Untuk alasan ini, kita menghabiskan beberapa waktu di sini menjelajahi aspek ini. Pembaca baru untuk R dan kisi mungkin ingin melewatkan bagian berikutnya pada bacaan pertama jika mereka merasa membingungkan. Fungsi panel adalah, pertama dan terutama, fungsi. Hal ini mungkin terdengar jelas, tetapi konsep fungsi sebagai argumen untuk fungsi lainnya adalah sering di FFI kultus untuk memahami bagi mereka yang tidak digunakan untuk bahasa-bahasa fungsional. Untuk memperbaiki ide-ide, mari kita perhatikan panggilan yang menghasilkan
Seperti yang kita rencanakan untuk bereksperimen hanya dengan fungsi panel, tidak ada gunanya mengulangi panggilan penuh setiap kali. Jadi, kita menyimpan objek dalam variabel dan menggunakan metode update () untuk memanipulasi lebih lanjut.

> Bc.titanic <-

barchart (Kelas ~ Freq | Sex + Age, as.data.frame (Titanic), kelompok = Bertahan, tumpukan = TRUE, tata letak = c (4, 1), auto.key = daftar (title = "Bertahan", kolom = 2), timbangan = daftar (x = "bebas"))

Gambar 2.9 dapat direproduksi dengan mencetak objek ini.

> Bc.titanic

Karena fungsi panel default untuk barchart () adalah panel.barchart (), ini setara dengan

> Update (bc.titanic, panel = panel.barchart)

yang memiliki e sama ff ect sebagai menentukan panel = panel.barchart dalam panggilan orig inal-. Perhatikan bahwa hasil dari panggilan untuk memperbarui (), yang itu sendiri merupakan objek dari kelas "teralis", belum ditugaskan ke variabel dan sehingga akan dicetak seperti biasa. Variabel bc.titanic tetap tidak berubah. Untuk membuat lebih eksplisit gagasan bahwa panel adalah fungsi, kita dapat menulis ulang ini sebagai

> Update (bc.titanic,

panel = function (...) {panel.barchart (...)

})

Meskipun ini tidak apa-apa baru, itu menggambarkan fitur penting dari bahasa S yang penting adalah mudah bagi pemula untuk kehilangan; yaitu

... Argumen. Fungsi rumit biasanya mencapai tugas mereka dengan memanggil fungsi sederhana. The ... argumen dalam fungsi adalah cara yang nyaman untuk itu untuk menangkap argumen yang benar-benar dimaksudkan untuk fungsi lain yang disebut oleh itu, tanpa perlu tahu secara eksplisit apa yang mereka argumen mungkin. Trik ini

































BAB III
METODE PENELITIAN
3.1Simple Scatterplot
Ada banyak cara untuk membuat scatterplot di R. Fungsi dasar plot (x, y), dimana x dan y adalah vektor numerik yang menunjukkan (x, y) poin plot.
# Simple Scatterplot
attach(mtcars)
plot(wt, mpg, main="Scatterplot Example",
xlab="Car Weight ", ylab="Miles Per Gallon ", pch=19)
 
# Add fit lines
abline(lm(mpg~wt), col="red") # regression line (y~x)
lines(lowess(wt,mpg), col="blue") # lowess line (x,y)
 
Sebar () fungsi dalam paket mobil menawarkan banyak fitur yang disempurnakan, termasuk fit garis, plot kotak marjinal, pendingin pada faktor, dan identifikasi titik interaktif. Masing-masing fitur ini adalah opsional.
# Enhanced Scatterplot of MPG vs. Weight
# by Number of Car Cylinders
library(car)
scatterplot(mpg ~ wt | cyl, data=mtcars,
xlab="Weight of Car", ylab="Miles Per Gallon",
   main="Enhanced Scatter Plot",
   labels=row.names(mtcars))
3.2 Scatterplot Matrices
Setidaknya ada 4 fungsi yang berguna untuk membuat matriks scatter plot. Analis harus mencintai matriks sebar!
# Basic Scatterplot Matrix
pairs(~mpg+disp+drat+wt,data=mtcars,
main="Simple Scatterplot Matrix")
 
Paket kisi menyediakan opsi untuk kondisi matriks sebar pada faktor.
# Scatterplot Matrices from the lattice Package
library(lattice)
splom(mtcars[c(1,3,5,6)], groups=cyl, data=mtcars,
panel=panel.superpose,
key=list(title="Three Cylinder Options",
columns=3,
points=list(pch=super.sym$pch[1:3],
col=super.sym$col[1:3]),
text=list(c("4 Cylinder","6 Cylinder","8 Cylinder"))))
 
Paket mobil dapat mengkondisikan matriks sebar pada faktor, dan opsional termasuk lowess dan garis paling cocok linear, dan boxplot, kepadatan, atau histogram dalam pokok diagonal, serta plot karpet di pinggir sel.
# Scatterplot Matrices from the car Package
library(car)
scatterplot.matrix(~mpg+disp+drat+wt|cyl, data=mtcars,
main="Three Cylinder Options")
 
Paket glus menyediakan opsi untuk mengatur ulang variabel sehingga mereka yang memiliki korelasi yang lebih tinggi lebih dekat ke diagonal utama. Hal ini juga dapat kode warna sel untuk mencerminkan ukuran korelasi.
# Scatterplot Matrices from the glus Package
library(gclus)
dta <- mtcars[c(1,3,5,6)] # get data
dta.r <- abs(cor(dta)) # get correlations
dta.col <- dmat.color(dta.r) # get colors
# reorder variables so those with highest correlation
# are closest to the diagonal
dta.o <- order.single(dta.r)
cpairs(dta, dta.o, panel.colors=dta.col, gap=.5,
main="Variables Ordered and Colored by Correlation" )
 
3.3 High Density Scatterplots
Ketika ada banyak titik data dan tumpang tindih yang signifikan, scatterplots menjadi kurang berguna. Ada beberapa pendekatan yang digunakan saat ini terjadi. The hexbin (x, y) fungsi dalam paket hexbin memberikan Binning bivariat ke dalam sel heksagonal (tampak lebih baik daripada kedengarannya).
# High Density Scatterplot with Binning
library(hexbin)
x <- rnorm(1000)
y <- rnorm(1000)
bin<-hexbin(x, y, xbins=50)
plot(bin, main="Hexagonal Binning")
 
Pilihan lain untuk plot pencar dengan titik tumpang tindih yang signifikan adalah plot bunga matahari. Benih bantuan (bunga matahari plot) untuk rincian. Akhirnya, Anda dapat menyimpan plot pencar dalam format PDF dan menggunakan transparansi warna untuk memungkinkan poin yang tumpang tindih untuk menunjukkan melalui (ide ini berasal dari BS Everitt dalam HSAUR).
# High Density Scatterplot with Color Transparency
pdf("c:/scatterplot.pdf")
x <- rnorm(1000)
y <- rnorm(1000)
plot(x,y, main="PDF Scatterplot Example", col=rgb(0,100,0,50,maxColorValue=255), pch=16)
dev.off()
 
Catatan: Anda dapat menggunakan col2rgb () fungsi untuk mendapatkan nilai RBG untuk R warna. Misalnya, col2rgb ("hijau gelap") menghasilkan r = 0, g = 100, b = 0. Kemudian tambahkan tingkat transparansi alpha sebagai nomor 4 di vektor warna. Nilai nol berarti sepenuhnya transparan. Lihat bantuan (rgb) untuk informasi lebih lanjut.
3.4 3D Scatterplots
Anda dapat membuat sebar 3D dengan paket scatterplot3d. Gunakan fungsi scatterplot3d (x, y, z).
# 3D Scatterplot
library(scatterplot3d)
attach(mtcars)
scatterplot3d(wt,disp,mpg, main="3D Scatterplot")
 
# 3D Scatterplot with Coloring and Vertical Drop Lines
library(scatterplot3d)
attach(mtcars)
scatterplot3d(wt,disp,mpg, pch=16, highlight.3d=TRUE,
type="h", main="3D Scatterplot")
 
# 3D Scatterplot with Coloring and Vertical Lines
# and Regression Plane
library(scatterplot3d)
attach(mtcars)
s3d <-scatterplot3d(wt,disp,mpg, pch=16, highlight.3d=TRUE,
type="h", main="3D Scatterplot")
fit <- lm(mpg ~ wt+disp)
s3d$plane3d(fit)
 
3.5 Spinning 3D Scatterplots
Anda juga dapat membuat plot 3D pencar interaktif menggunakan plot3D (x, y, z) fungsi dalam paket RGL. Ini menciptakan scatter plot 3D berputar yang dapat diputar dengan mouse. Pertama tiga argumen adalah x, y, dan vektor numerik z mewakili poin. col = dan ukuran = mengontrol warna dan ukuran poin.
# Spinning 3d Scatterplot
library(rgl)
plot3d(wt, disp, mpg, col="red", size=3)
Anda dapat melakukan fungsi yang sama dengan scatter3d (x, y, z) dalam paket Rcmdr.
# Another Spinning 3d Scatterplot
library(Rcmdr)
attach(mtcars)
scatter3d(wt, disp, mpg)
 
Saya merencanakan scatter plot untuk kepadatan tinggi dots.I digunakan paket Hexbin dan saya berhasil merencanakan warna data.The tidak cantik, dan saya diminta untuk mengikuti warna standar. Aku bertanya-tanya jika didukung oleh R. Gambar menunjukkan saya out put (kanan) dan warna yang diinginkan (kiri).


Example:
    x <- rnorm(1000)
    y <- rnorm(1000)
   bin<-hexbin(x,y, xbins=50)
   plot(bin, main="Hexagonal Binning")



up vote 5 down vote accepted
Menggunakan contoh di halaman bantuan paket untuk hexbin Anda bisa mendapatkan dekat dengan pelangi dan bermain dengan argumen colcuts seperti begitu ...

x <- rnorm(10000)
y <- rnorm(10000)
(bin <- hexbin(x, y))

plot(hexbin(x, y + x*(x+1)/4),main = "Example" ,
     colorcut = seq(0,1,length.out=64),
     colramp = function(n) rev(rainbow(64)),
     legend = 0 )
Anda akan perlu untuk bermain dengan legenda spesifikasi dll untuk mendapatkan apa yang Anda inginkan. Palet warna alternatif yang disarankan oleh Roland

## nicer colour palette
cols <- colorRampPalette(c("darkorchid4","darkblue","green","yellow", "red") )
plot(hexbin(x, y + x*(x+1)/4), main = "Example" ,
colorcut = seq(0,1,length.out=24),
colramp = function(n) cols(24) ,
legend = 0 )
exbinplot {hexbin}
Trellis Hexbin Displays
Package: 
hexbin
Version: 
1.27.1
Description
Tampilan data heksagonal binned, seperti yang diterapkan dalam paket hexbin, dalam kerangka Teralis, dengan utilitas terkait. Plot hexbin adalah fungsi generik tingkat tinggi, dengan "formula" metode melakukan pekerjaan yang sebenarnya. prepanel.hexbin plot dan alur panel.hexbin berhubungan panel dan panel pra fungsi. hex legenda Grob menghasilkan legenda yang cocok.
Usage
hexbinplot(x, data, ...)
## S3 method for class 'formula':
hexbinplot((x, data = NULL,
prepanel = prepanel.hexbinplot,
panel = panel.hexbinplot,
groups = NULL,
aspect = "xy",
trans = NULL,
inv = NULL,
colorkey = TRUE,...,maxcnt,
legend = NULL,
legend.width = TRUE, subset)

prepanel.hexbinplot(x, y, type = character(0), ...)

panel.hexbinplot(x, y, ..., groups = NULL)

hexlegendGrob(legend = 1.2,
inner = legend / 5,
cex.labels = 1,
cex.title = 1.2,
style = "colorscale",
minarea = 0.05, maxarea = 0.8,
mincnt = 1, maxcnt,
trans = NULL, inv = NULL,
colorcut = seq(0, 1, length = 17),
density = NULL, border = NULL, pen = NULL,
colramp = function(n) { LinGray(n,beg = 90,end = 15) } ...,
vp = NULL,
draw = FALSE))

3.6 Arguments Hexbin
x
Untuk hexbinplot, objek yang metode pengiriman dilakukan. Untuk "formula" metode, formula yang menggambarkan bentuk pengkondisian petak. Rumus yang berlaku untuk xyplot dapat diterima. Dalam panel.hexbinplot, variabel x  y. data untuk metode rumus, bingkai data yang berisi nilai-nilai untuk setiap variabel dalam formula, serta kelompok dan bagian jika ada (menggunakan kelompok saat ini menyebabkan kesalahan dengan fungsi panel default). Secara default, lingkungan di mana fungsi dipanggil dari digunakan. Minarea, maxarea, mincnt, maxcnt, trans, inv, colorcut, kepadatan, perbatasan, pena, colramp, gaya melihat gplot.hexbin prepanel, panel, aspek. Lihat xyplot. Aspek = "isi" tidak diperbolehkan. Default saat "xy" mungkin tidak selalu menjadi pilihan terbaik, sering aspek = 1 akan lebih masuk akal. Colorkey logis, apakah legenda harus ditarik. Saat ini legenda dapat ditarik hanya di sebelah kanan. Legend.width, legenda lebar legenda dalam inci ketika gaya "nested.lattice" atau "nested.centroids". Nama legend.width digunakan untuk menghindari konflik dengan legenda argumen teralis standar. Hal ini dimungkinkan untuk menentukan legenda tambahan menggunakan legenda atau kunci argumen selama mereka tidak bertentangan dengan legenda hexbin (yaitu, tidak di sebelah kanan). Dalam radius dalam inci dari segi enam dalam legenda ketika gaya "nested.lattice" atau "nested.centroids". cex.labels, cex.title dalam legenda, multiplier untuk label numerik dan teks penjelasan masing-masing mengetik vektor karakter mengendalikan augmentation tambahan layar. Sebuah "g" dalam jenis menambahkan grid referensi, "r" menambahkan garis regresi (y pada x), "halus" tambah loess halus menarik logis, apakah untuk menarik legenda Grob. Berguna ketika hexlegendGrob digunakan secara terpisah
vp
jaringan viewport menggambar legenda di argumen tambahan, diteruskan sesuai. Argumen untuk gplot.hexbin, xyplot, panel.hexbinplot dan hexlegendGrob dapat dipasok ke hexbinplot panggilan tingkat tinggi. panel.hexbinplot menyebut salah satu dari dua fungsi (unexported) tingkat rendah tergantung pada apakah kelompok diberikan (walaupun kelompok menentukan saat mengarah ke kesalahan). Argumen fungsi yang tepat dapat diberikan; beberapa yang penting adalah xbins: jumlah segi enam yang meliputi nilai-nilai x. Jumlah y-sampah tergantung pada ini, aspek rasio, dan xbnds dan ybnds xbnds, ybnds: Numeric berbagai vektor menspesifikasikan nilai yang harus ditutupi oleh Binning tersebut. Dalam layar multi-panel, itu tidak selalu ide yang baik untuk menggunakan batas-batas yang sama (yang bersama dengan xbins dan aspek rasio menentukan ukuran segi enam) untuk semua panel. Misalnya, ketika data terkonsentrasi di sub-wilayah kecil panel yang berbeda, lebih rinci akan ditampilkan dengan menggunakan segi enam kecil yang meliputi daerah-daerah. Untuk mengontrol ini, xbnds dan ybnds juga bisa string karakter "panel" atau "data" (yang tidak nama yang sangat baik dan dapat berubah di masa depan). Dalam kasus pertama, batas-batas yang diambil menjadi batas panel, dalam kasus kedua, batas-batas data (paket) di panel itu. Perhatikan bahwa semua panel akan memiliki batas yang sama (cukup untuk menutupi semua data) secara default jika hubungan = "bebas" dalam skala argumen teralis standar, tapi tidak sebaliknya. Kelompok di hexbinplot, variabel pengelompokan yang dievaluasi dalam data, dan diteruskan ke fungsi panel. Bagian ekspresi yang dievaluasi dalam dievaluasi dalam data untuk menghasilkan vektor logis yang digunakan untuk subset data sebelum digunakan dalam plot.
3.7 Details Hexbin Plot
fungsi panel panel.hexbinplot membuat objek hexbin dari data yang diberikan untuk itu dan plot menggunakan grid.hexagons. Untuk membuat panel sebanding, semua panel memiliki nilai maxcnt sama, secara default jumlah maksimum atas semua panel. Nilai default ini dapat dihitung hanya jika rasio aspek diketahui, dan aspek = "Isi" tidak diperbolehkan. Pilihan default rasio aspek berbeda dari pilihan di hexbin (yaitu, 1), yang kadang-kadang memberikan hasil yang lebih baik untuk multi-panel display. xbnds dan ybnds dapat berbagai vektor numerik seperti di hexbin, tetapi mereka juga dapat menjadi karakter string menentukan apakah semua panel harus memiliki tempat sampah yang sama. Jika mereka tidak, maka sampah di panel yang berbeda bisa menjadi ukuran yang berbeda, di mana gaya kasus = "kisi" dan style = "centroid" harus ditafsirkan dengan hati-hati.
Dimensi legenda dan ukuran segi enam di dalamnya diberikan dalam satuan absolut (inci) dengan hanya bila gaya legend.width dan batin "nested.lattice" atau "nested.centroids". Untuk gaya lain, dimensi legenda ditentukan relatif terhadap plot. Secara khusus, ketinggian legenda adalah sama dengan ketinggian plot (panel dan daerah jalur gabungan), dan lebarnya adalah minimum yang diperlukan agar sesuai dengan legenda di layar. Hal ini berbeda dalam beberapa hal dari pelaksanaan hexbin. Secara khusus, ukuran segi enam di legenda sama sekali tidak berhubungan dengan ukuran di panel, yang cukup banyak dapat dihindari karena ukuran tidak perlu panel di sama jika xbnds atau ybnds adalah "data". Ukuran segi enam mengkodekan informasi ketika gaya "kisi" atau "centroid", akibatnya peringatan dikeluarkan ketika legenda diambil dengan melayu gaya ini. Nilai hexbinplot menghasilkan sebuah objek dari kelas "teralis". Metode update dapat digunakan untuk memperbarui komponen dari objek dan metode cetak (biasanya disebut secara default) akan plot pada perangkat plotting yang tepat. hexlegendGrob menghasilkan "Grob" (objek grid).
Examples
mixdata <-
    data.frame(x = c(rnorm(5000),rnorm(5000,4,1.5)),
               y = c(rnorm(5000),rnorm(5000,2,3)),
               a = gl(2, 5000))
hexbinplot(y ~ x, mixdata, aspect = 1,
           trans = sqrt, inv = function(x) x^2)
hexbinplot(y ~ x | a, mixdata)
hexbinplot(y ~ x | a, mixdata, style = "lattice",
           xbnds = "data", ybnds = "data")
hexbinplot(y ~ x | a, mixdata, style = "nested.centroids")
hexbinplot(y ~ x | a, mixdata, style = "nested.centroids",
           border = FALSE, type = c("g", "smooth"))
3.8 Visualizing the distribution of a dataset
Ketika berhadapan dengan satu set data, sering hal pertama yang akan Anda ingin lakukan adalah mendapatkan rasa untuk bagaimana variabel didistribusikan. Bab ini tutorial akan memberikan pengenalan singkat ke beberapa alat di seborn untuk memeriksa distribusi univariat dan bivariat. Anda juga mungkin ingin melihat plot kategoris bab untuk contoh fungsi yang membuatnya mudah untuk membandingkan distribusi variabel di tingkat variabel lain.

%matplotlib inline
import numpy as np
import pandas as pd
from scipy import stats, integrate
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(color_codes=True)
np.random.seed(sum(map(ord, "distributions")))




3.9 Plotting univariate distributions
Cara yang paling nyaman untuk mengambil cepat melihat distribusi univariat di Seaborn adalah distplot () fungsi. Secara default, ini akan menarik histogram dan cocok perkiraan kepadatan kernel (KDE).

x = np.random.normal(size=100)
sns.distplot(x);
Histograms
Histogram cenderung akrab, dan fungsi hist sudah ada di matplotlib. Histogram merupakan distribusi data dengan membentuk sampah di sepanjang berbagai data dan kemudian menggambar bar untuk menunjukkan jumlah observasi yang jatuh setiap bin.
Untuk menggambarkan hal ini, mari kita menghapus kurva kepadatan dan menambahkan plot karpet, yang menarik kutu vertikal kecil di setiap pengamatan. Anda dapat membuat karpet rencana sendiri dengan karpet plot () fungsi, tetapi juga tersedia dalam distplot ():

sns.distplot(x, kde=False, rug=True);
Ketika menggambar histogram, pilihan utama Anda miliki adalah jumlah sampah digunakan dan mana untuk menempatkan mereka. distplot () menggunakan aturan sederhana untuk membuat perkiraan yang baik untuk apa nomor yang benar secara default, tetapi berusaha lebih atau kurang sampah akan mengungkapkan fitur lain dalam data:

sns.distplot(x, bins=20, kde=False, rug=True);
Kernel density estimaton
Estimasi densitas kernel mungkin kurang familiar, tetapi dapat menjadi alat yang berguna untuk merencanakan bentuk distribusi. Seperti histogram, plot KDE mengkodekan kepadatan pengamatan pada satu sumbu dengan tinggi sepanjang sumbu lainnya:

sns.distplot(x, hist=False, rug=True);
Menggambar KDE lebih komputasi terlibat daripada menggambar histogram. Apa yang terjadi adalah bahwa setiap pengamatan pertama diganti dengan normal (Gaussian) kurva berpusat pada nilai yang:
x = np.random.normal(0, 1, size=30)
bandwidth = 1.06 * x.std() * x.size ** (-1 / 5.)
support = np.linspace(-4, 4, 200)

kernels = []
for x_i in x:

    kernel = stats.norm(x_i, bandwidth).pdf(support)
    kernels.append(kernel)
    plt.plot(support, kernel, color="r")

sns.rugplot(x, color=".2", linewidth=3);
Berikutnya, kurva ini dijumlahkan untuk menghitung nilai kerapatan pada setiap titik dalam dukungan jaringan. Kurva yang dihasilkan adalah dinormalisasi sehingga daerah di bawah itu sama dengan 1:

density = np.sum(kernels, axis=0)
density /= integrate.trapz(density, support)
plt.plot(support, density);
Kita bisa melihat bahwa jika kita menggunakan kdeplot () fungsi dalam Seaborn, kita mendapatkan kurva yang sama. Fungsi ini digunakan oleh distplot (), tetapi menyediakan
1
plot(subset(gomez, fielderId == playerId.CF))

 

While this plot has the advantage of showing us the individual balls that Gomez caught, it can sometime be hard to visually aggregate these data. A hexbin plot will do that for us.
Let’s try a simple hexbinplot().
1
2
require(hexbin)
hexbinplot(our.y ~ our.x, data=subset(gomez, fielderId == playerId.CF))

 

Plot ini , sementara representasi teknis akurat dari data , hampir tidak berarti karena data tidak disajikan dengan konteks apapun . Ini adalah masalah umum dalam statistik - mari kita lihat apakah kita bisa mengatasinya .
Dalam hal ini , garis-garis yang menggambarkan berlian bisbol di plot sebelumnya akan benar-benar membantu kita untuk memahami lokasi hexbins ini . Untungnya , enggak ini berlian generik ditarik oleh panel.baseball ( ) fungsi dalam openWAR . Jika Anda sudah familiar dengan grafis kisi di R , panel.baseball ( ) bekerja seperti fungsi panel lainnya - itu hanya menambahkan tata letak bisbol ini untuk plot Anda .
Apa yang hebat tentang ini adalah bahwa Anda dapat menggunakan panel.baseball ( ) untuk overlay bidang ini ke setiap petak kisi , dan hexbinplot ( ) terjadi menjadi plot kisi . Jadi misalnya , kita dapat menempatkan berlian bisbol ke hexplot cukup mudah .

1
2
3
4
5
6
hexbinplot(our.y ~ our.x, data=subset(gomez, fielderId == playerId.CF)
         , panel = function(x,y,...) {
           panel.baseball()
           panel.hexbinplot(x,y,...)
         }
  )

Yang benar-benar bekerja , tapi itu tidak membantu banyak karena margin tidak cukup lebar , kami tidak label sumbu , dan hexbins terlalu kecil . Juga , kita dapat menambahkan warna dan mengubah jumlah warna yang digunakan . Beberapa tweak akan meningkatkan hal-hal jauh .
1
2
3
4
5
6
7
8
9
10
11
12
13
my.colors <- function (n) {
  rev(heat.colors(n))
}
hexbinplot(our.y ~ our.x, data=subset(gomez, fielderId == playerId.CF), xbins = 10
         , panel = function(x,y, ...) {
           panel.baseball()
           panel.hexbinplot(x,y,  ...)
         }
       , xlim = c(-350, 350), ylim = c(-20, 525)
       , xlab = "Horizontal Distance from Home Plate (ft.)"
       , ylab = "Vertical Distance from Home Plate (ft.)"
       , colramp = my.colors, colorcut = seq(0, 1, length = 10)
  )


Tentu saja , kami tertarik pada bagaimana Gomez membandingkan semua centerfielders
.
1
2
3
4
5
6
7
8
9
10
hexbinplot(our.y ~ our.x, data=subset(MLBAM2013, fielderId == playerId.CF), xbins = 50
         , panel = function(x,y, ...) {
           panel.baseball()
           panel.hexbinplot(x,y,  ...)
         }
       , xlim = c(-350, 350), ylim = c(-20, 525)
       , xlab = "Horizontal Distance from Home Plate (ft.)"
       , ylab = "Vertical Distance from Home Plate (ft.)"
       , colramp = my.colors, colorcut = seq(0, 1, length = 10)
  )



1
2
3
4
5
6
7
8
9
10
11
12
13
14
key = unique(subset(MLBAM2013, batterName %in% c("Trout", "Upton, B", "Gomez, C", "Ellsbury"), select=c("batterId", "batterName")))
comp = subset(MLBAM2013, playerId.CF %in% key$batterId & fielderId == playerId.CF)

hexbinplot(our.y ~ our.x | as.factor(playerId.CF), data=comp, xbins = 10
         , panel = function(x,y, ...) {
           panel.baseball()
           panel.hexbinplot(x,y,  ...)
         }
       , xlim = c(-350, 350), ylim = c(-20, 525)
       , xlab = "Horizontal Distance from Home Plate (ft.)"
       , ylab = "Vertical Distance from Home Plate (ft.)"
       , colramp = my.colors, colorcut = seq(0, 1, length = 10)
       , strip = strip.custom(factor.levels = as.character(key$batterName))
  )





BAB IV
METODE PENELITIAN
4.1  Rancangan Penelitian

antarmuka yang lebih langsung dengan akses yang lebih mudah untuk pilihan lain ketika Anda hanya ingin perkiraan kepadatan:

sns.kdeplot(x, shade=True);
Bandwidth (bw) parameter dari KDE mengontrol bagaimana erat estimasi yang cocok untuk data, seperti ukuran bin di histogram. Hal ini sesuai dengan lebar kernel kita diplot di atas. Perilaku default mencoba menebak nilai yang baik menggunakan aturan referensi umum, tapi mungkin bisa membantu untuk mencoba besar atau lebih kecil nilai:

sns.kdeplot(x)
sns.kdeplot(x, bw=.2, label="bw: 0.2")
sns.kdeplot(x, bw=2, label="bw: 2")
plt.legend();
Seperti yang dapat Anda lihat di atas, sifat dari proses Gaussian KDE berarti bahwa estimasi meluas melewati nilai terbesar dan terkecil di dataset. Ini mungkin untuk mengontrol seberapa jauh masa lalu nilai-nilai ekstrim kurva digambar dengan parameter potong; Namun, ini hanya mempengaruhi bagaimana kurva digambar dan bukan bagaimana itu cocok:

sns.kdeplot(x, shade=True, cut=0)
sns.rugplot(x);

4.2Fitting parametric distributions
Anda juga dapat menggunakan distplot () untuk menyesuaikan distribusi parametrik untuk dataset dan visual mengevaluasi seberapa dekat itu sesuai dengan data lapangan:

x = np.random.gamma(6, size=200)
sns.distplot(x, kde=False, fit=stats.gamma);
Plotting bivariate distributions
Hal ini juga dapat berguna untuk memvisualisasikan distribusi bivariat dari dua variabel. Cara termudah untuk melakukan ini di Seaborn adalah untuk hanya plot bersama () fungsi, yang menciptakan sosok multi-panel yang menunjukkan baik bivariat (atau gabungan) hubungan antara dua variabel bersama dengan univariat (atau marjinal) distribusi masing-masing pada sumbu terpisah.
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 200)
df = pd.DataFrame(data, columns=["x", "y"])
Scatterplots
Cara yang paling familiar untuk memvisualisasikan distribusi bivariat adalah plot pencar, di mana masing-masing pengamatan ditunjukkan dengan titik di x dan y. Hal ini analog dengan plot karpet pada dua dimensi. Anda dapat menggambar plot pencar dengan fungsi matplotlib plt.scatter, dan juga jenis standar plot ditunjukkan oleh plot bersama () fungsi:
sns.jointplot(x="x", y="y", data=df);
4.3 Hexbin plots
Analog bivariat dari histogram dikenal sebagai "hexbin" plot, karena menunjukkan jumlah pengamatan yang berada dalam tempat sampah heksagonal. Plot ini bekerja terbaik dengan dataset yang relatif besar. Ini tersedia melalui fungsi matplotlib plt.hexbin dan sebagai gaya jointplot (). Hal terbaik terlihat dengan latar belakang putih:
x, y = np.random.multivariate_normal(mean, cov, 1000).T
with sns.axes_style("white"):
    sns.jointplot(x=x, y=y, kind="hex", color="k");
Kernel density estimation
Hal ini juga posible untuk menggunakan prosedur estimasi densitas kernel yang dijelaskan di atas untuk memvisualisasikan distribusi bivariat. Dalam Seaborn, jenis plot ditunjukkan dengan plot kontur dan tersedia sebagai gaya jointplot ():

sns.jointplot(x="x", y="y", data=df, kind="kde");
Anda juga dapat menggambar dua dimensi kepadatan kernel petak dengan kdeplot () fungsi. Hal ini memungkinkan Anda untuk menarik jenis plot ke spesifik (dan mungkin sudah ada) sumbu matplotlib, sedangkan plot bersama () fungsi mengelola angka sendiri:
f, ax = plt.subplots(figsize=(6, 6))
sns.kdeplot(df.x, df.y, ax=ax)
sns.rugplot(df.x, color="g", ax=ax)
sns.rugplot(df.y, vertical=True, ax=ax);
Jika Anda ingin menunjukkan kepadatan bivariat lebih terus menerus, Anda dapat meningkatkan jumlah tingkat kontur:
f, ax = plt.subplots(figsize=(6, 6))
cmap = sns.cubehelix_palette(as_cmap=True, dark=0, light=1, reverse=True)
sns.kdeplot(df.x, df.y, cmap=cmap, n_levels=60, shade=True);
The jointplot () fungsi menggunakan Grid Bersama untuk mengelola gambar. Agar lebih fleksibel, Anda mungkin ingin menarik sosok Anda dengan menggunakan Joint Grid langsung. jointplot () mengembalikan objek Bersama Grid setelah merencanakan, yang dapat Anda gunakan untuk menambahkan lebih banyak lapisan atau men-tweak aspek lain dari visualisasi

g = sns.jointplot(x="x", y="y", data=df, kind="kde", color="m")
g.plot_joint(plt.scatter, c="w", s=30, linewidth=1, marker="+")
g.ax_joint.collections[0].set_alpha(0)
g.set_axis_labels("$X$", "$Y$");
Visualizing pairwise relationships in a dataset
Untuk merencanakan beberapa distribusi bivariat berpasangan dalam dataset, Anda dapat menggunakan barplot () fungsi. Hal ini menciptakan matriks kapak dan menunjukkan hubungan untuk setiap pasangan kolom dalam DataFrame a. secara default, juga menarik distribusi univariat dari setiap variabel pada Axes diagonal:
iris = sns.load_dataset("iris")
sns.pairplot(iris);
Sama seperti hubungan antara jointplot () dan Joint Grid, barplot () fungsi dibangun di atas sebuah objek Pasangan Grid, yang dapat digunakan secara langsung untuk lebih fleksibel:
g = sns.PairGrid(iris)
g.map_diag(sns.kdeplot)
g.map_offdiag(sns.kdeplot, cmap="Blues_d", n_levels=6);
/Users/mwaskom/anaconda/lib/python2.7/site-packages/matplotlib/axes/_axes.py:475: UserWarning: No labelled objects found. Use label='...' kwarg on individual plots.
  warnings.warn("No labelled objects found. "


Saya menghasilkan plot menggunakan paket hexbin:

# install.packages("hexbin", dependencies=T)
library(hexbin)
set.seed(1234)
x <- rnorm(1e6)
y <- rnorm(1e6)
hbin <- hexbin(
  x   = x
  , y = y
  , xbin = 50
  , xlab = expression(alpha)
  , ylab = expression(beta)
)


## Using plot method for hexbin objects:
plot(hbin, style = "nested.lattice")

abline(h=0)
Hal ini tampaknya untuk menghasilkan sebuah objek S4 (hbin), yang saya kemudian plot menggunakan petak. Sekarang saya ingin menambahkan garis horizontal untuk plot yang menggunakan abline, tapi sayangnya ini memberikan kesalahan:
plot.new belum disebut
Saya juga tidak tahu, bagaimana saya bisa memanipulasi mis posisi label sumbu (alpha dan beta berada dalam angka), mengubah posisi legenda, dll
Aku akrab dengan OOP, tapi sejauh ini saya tidak bisa mengetahui bagaimana plot () menangani objek (apakah itu memanggil metode tertentu dari objek?) Dan bagaimana saya bisa memanipulasi plot yang dihasilkan. As we saw before, we can use the plot() method to visualize where Gomez’s catches were on the field.







BAB V
KESIMPULAN
5.1 KESIMPULAN
Dalam teori probabilitas hexbin plot with marginal distribution, distribusi marginal dari subset dari koleksi variabel acak adalah distribusi probabilitas dari variabel yang terkandung dalam subset. Ini memberikan probabilitas berbagai nilai variabel di bagian tanpa mengacu pada nilai-nilai dari variabel-variabel lainnya. Ini berbeda dengan distribusi bersyarat, yang memberikan probabilitas bergantung pada nilai-nilai dari variabel-variabel lainnya.

Variabel marjinal istilah digunakan untuk merujuk kepada orang-variabel dalam subset dari variabel yang dipertahankan. Istilah ini dijuluki "marjinal" karena mereka digunakan untuk ditemukan dengan menjumlahkan nilai-nilai dalam tabel di sepanjang baris atau kolom, dan menulis jumlah di pinggir meja. Distribusi variabel marjinal (distribusi marginal) adalah diperoleh dengan meminggirkan atas distribusi variabel yang dibuang, dan variabel dibuang dikatakan telah terpinggirkan keluar.

Konteksnya di sini adalah bahwa studi teoritis yang dilakukan, atau data analisis yang dilakukan, melibatkan lebih luas dari variabel acak namun perhatian yang sedang terbatas pada berkurangnya jumlah variabel. Dalam banyak aplikasi analisis dapat memulai dengan koleksi yang diberikan variabel acak, maka pertama memperpanjang set dengan mendefinisikan yang baru (seperti jumlah dari variabel-variabel acak asli) dan akhirnya mengurangi jumlah dengan menempatkan kepentingan dalam distribusi marjinal subset (seperti penjumlahan). Beberapa analisis yang berbeda dapat dilakukan, masing-masing mengobati subset yang berbeda dari variabel sebagai variabel marjinal.
Mengingat dua variabel acak X dan Y yang bersama distribusi diketahui, distribusi marginal dari X hanya distribusi probabilitas X rata-rata lebih dari informasi tentang Y. Ini adalah distribusi probabilitas X ketika nilai Y tidak diketahui. Hal ini biasanya dihitung dengan menjumlahkan atau mengintegrasikan distribusi probabilitas gabungan lebih dari Y.

Untuk variabel acak diskrit, marjinal fungsi massa probabilitas dapat ditulis sebagai Pr (X = x).ini adalah :


dimana Pr (X = x, Y = y) adalah distribusi gabungan dari X dan Y, sedangkan Pr (X = x | Y = y) adalah distribusi bersyarat dari X diberikan Y. Dalam hal ini, variabel Y telah terpinggirkan di luar.
Bivariat probabilitas marjinal dan bersama untuk variabel acak diskrit sering ditampilkan sebagai tabel dua arah.
Demikian pula untuk variabel acak kontinu, marjinal fungsi kepadatan probabilitas dapat ditulis sebagai pX (x). ini adalah

mana pX, Y (x, y) memberikan distribusi gabungan dari X dan Y, sedangkan pX | Y (x | y) memberikan distribusi bersyarat untuk X diberikan Y. Sekali lagi, variabel Y telah terpinggirkan keluar. Perhatikan bahwa probabilitas marginal selalu dapat ditulis sebagai nilai yang diharapkan:


Secara intuitif, probabilitas marjinal X dihitung dengan memeriksa probabilitas bersyarat dari X diberikan nilai tertentu dari Y, dan kemudian rata-rata probabilitas bersyarat ini lebih distribusi semua nilai Y. Ini mengikuti dari definisi nilai yang diharapkan, yaitu secara umum

                 
misalkan probabilitas bahwa seorang pejalan kaki akan tertabrak mobil saat menyeberang jalan di tempat penyeberangan pejalan kaki tanpa memperhatikan lampu lalu lintas yang akan dihitung. Mari H menjadi variabel acak diskrit mengambil satu nilai dari (Hit, Tidak Hit). Biarkan L menjadi variabel acak diskrit mengambil satu nilai dari (Merah, Kuning, Hijau).
Realistis, WHO akan tergantung pada L. Artinya, P (H = Hit) dan P (H = Tidak Hit) akan mengambil nilai yang berbeda tergantung pada apakah L merah, kuning atau hijau. Seseorang, misalnya, jauh lebih mungkin untuk terkena mobil ketika mencoba untuk menyeberang sementara lampu untuk cross lalu lintas berwarna hijau daripada jika mereka merah. Dengan kata lain, untuk setiap diberikan kemungkinan pasangan nilai untuk H dan L, salah satu harus mempertimbangkan distribusi probabilitas gabungan dari H dan L untuk menemukan probabilitas bahwa sepasang peristiwa yang terjadi bersama-sama jika pejalan kaki mengabaikan keadaan cahaya.
Namun, dalam mencoba untuk menghitung probabilitas marginal P (H = hit), apa yang kita minta adalah probabilitas bahwa H = Hit dalam situasi di mana kita tidak benar-benar tahu nilai tertentu L dan di mana abaian pejalan kaki keadaan cahaya. Secara umum pejalan kaki dapat memukul jika lampu merah ATAU jika lampu berwarna kuning atau jika lampu berwarna hijau. Jadi dalam hal ini jawaban untuk probabilitas marginal dapat ditemukan dengan menjumlahkan P (H, L) untuk semua nilai yang mungkin dari L, dengan masing-masing nilai L ditimbang dengan probabilitas untuk terjadi.

Berikut ini adalah tabel yang menunjukkan probabilitas bersyarat dari dipukul, tergantung pada keadaan lampu. (Perhatikan bahwa kolom dalam tabel ini harus menambahkan hingga 1 karena kemungkinan dipukul atau tidak memukul adalah 1 terlepas dari keadaan cahaya.)

Conditional distribution: P(H|L)
L
H
Red
Yellow
Green
Not Hit
0.99
0.9
0.2
Hit
0.01
0.1
0.8
Untuk menemukan distribusi probabilitas bersama, kita perlu lebih banyak data. Mari kita mengatakan bahwa P (L = red) = 0,2, P (L = kuning) = 0,1, dan P (L = hijau) = 0,7. Mengalikan setiap kolom dalam distribusi bersyarat dengan probabilitas kolom yang terjadi, kita menemukan distribusi probabilitas gabungan dari H dan L, yang diberikan dalam pusat 2 × 3 blok entri. (Perhatikan bahwa sel-sel dalam 2 × 3 blok menambahkan hingga 1).
Joint distribution: P(H,L)
L
H
Red
Yellow
Green
Marginal probability P(H)
Not Hit
0.198
0.09
0.14
0.428
Hit
0.002
0.01
0.56
0.572
Total
0.2
0.1
0.7
1





Probabilitas P marjinal (H = Hit) adalah jumlah sepanjang H = Hit baris tabel distribusi gabungan ini, karena ini adalah probabilitas dipukul ketika lampu merah OR kuning ATAU hijau. Demikian pula, probabilitas marjinal bahwa P (H = Tidak Hit) adalah jumlah dari H = Tidak Hit baris. Dalam contoh ini kemungkinan pejalan kaki dipukul jika mereka tidak memperhatikan kondisi lampu lalu lintas adalah 0,572.
Banyak sampel dari distribusi normal bivariat. Distribusi marjinal ditunjukkan dengan warna merah dan biru. Distribusi marjinal X juga didekati dengan membuat histogram dari X koordinat tanpa pertimbangan Y koordinat.

5.2 saran

Teori probabilitas adalah cabang matematika yang bersangkutan dengan probabilitas, analisis fenomena acak. Objek utama teori probabilitas variabel acak, proses stokastik, dan peristiwa: abstraksi matematika peristiwa non-deterministik atau jumlah terukur yang dapat berupa kejadian tunggal atau berkembang dari waktu ke waktu dalam mode tampaknya acak.

Hal ini tidak mungkin untuk memprediksi secara tepat hasil dari kejadian acak. Namun, jika urutan peristiwa individu, seperti membalik koin atau gulungan dadu, dipengaruhi oleh faktor-faktor lain, seperti gesekan, itu akan menunjukkan pola-pola tertentu, yang dapat dipelajari dan diprediksi. Dua hasil matematika perwakilan menggambarkan pola tersebut adalah hukum bilangan besar dan teorema limit sentral.

Sebagai dasar matematika untuk statistik, teori probabilitas penting untuk banyak aktivitas manusia yang melibatkan analisis kuantitatif set data yang besar. Metode teori probabilitas juga berlaku untuk deskripsi dari sistem yang kompleks hanya diberikan pengetahuan parsial negara mereka, seperti dalam mekanika statistik. Penemuan besar fisika abad kedua puluh adalah sifat probabilistik fenomena fisik pada skala atom, dijelaskan dalam mekanika kuantum.

Teori matematika probabilitas berakar pada upaya untuk menganalisis permainan kesempatan oleh Girolamo Cardano pada abad keenam belas, dan oleh Pierre de Fermat dan Blaise Pascal pada abad ketujuh belas (misalnya "masalah poin"). Christiaan Huygens menerbitkan sebuah buku pada subjek di 1657 dan pada abad ke-19 karya besar dilakukan oleh Laplace dalam apa yang dapat dianggap hari ini sebagai penafsiran klasik. Awalnya, teori probabilitas terutama dianggap peristiwa diskrit, dan metode yang terutama kombinatorial. Akhirnya, pertimbangan analitis memaksa penggabungan variabel kontinu dalam teori.
Hal ini memuncak dalam teori probabilitas modern, di atas dasar yang diletakkan oleh Andrey Nikolaevich Kolmogorov. Kolmogorov gabungan gagasan ruang sampel, diperkenalkan oleh Richard von Mises, dan mengukur teori dan disajikan kebenaran untuk sistem teori probabilitas pada tahun 1933. Cukup cepat ini menjadi dasar aksiomatik sebagian besar tak terbantahkan untuk teori probabilitas modern tapi alternatif yang ada, khususnya adopsi terbatas daripada dihitung aditivitas oleh Bruno de Finetti.
Pertimbangkan percobaan yang dapat menghasilkan sejumlah hasil. Himpunan semua hasil disebut ruang sampel percobaan. Kekuatan set ruang sampel (atau ekuivalen, ruang acara) dibentuk dengan mempertimbangkan semua koleksi yang berbeda dari hasil yang mungkin. Sebagai contoh, sebuah bergulir die jujur ​​menghasilkan satu enam hasil yang mungkin dari. Salah satu koleksi hasil yang mungkin sesuai dengan mendapatkan angka ganjil. Dengan demikian, subset {1,3,5} adalah unsur kekuatan mengatur dari ruang sampel dari die gulungan. Koleksi ini disebut peristiwa. Dalam hal ini, {1,3,5} adalah peristiwa yang mati jatuh pada beberapa ganjil. Jika hasil yang benar-benar terjadi penurunan dalam acara tertentu, acara yang dikatakan telah terjadi.
Probabilitas adalah cara menugaskan setiap "peristiwa" nilai antara nol dan satu, dengan persyaratan bahwa acara terdiri dari semua hasil yang mungkin (dalam contoh kita, acara {1,2,3,4,5,6}) diberi nilai satu. Untuk memenuhi syarat sebagai distribusi probabilitas, penugasan nilai harus memenuhi persyaratan bahwa jika Anda melihat koleksi peristiwa saling eksklusif (peristiwa yang tidak mengandung hasil umum, misalnya, peristiwa {1,6}, {3}, dan { 2,4} semua saling eksklusif), probabilitas bahwa salah satu peristiwa akan terjadi diberikan oleh jumlah dari probabilitas dari peristiwa individu.
Probabilitas bahwa salah satu dari peristiwa {1,6}, {3}, atau {} 2,4 akan terjadi adalah 5/6. Ini sama dengan mengatakan bahwa probabilitas acara {1,2,3,4,6} adalah 5/6. Acara ini meliputi kemungkinan sejumlah kecuali lima sedang bergulir. Acara {5} saling eksklusif memiliki probabilitas 1/6, dan acara {1,2,3,4,5,6} memiliki probabilitas 1, yaitu, kepastian yang mutlak.



Random variable

Probabilitas dan statistik, variabel acak, kuantitas acak, variabel tdk sengaja atau variabel stokastik adalah variabel yang nilainya tunduk variasi karena kebetulan (yaitu keacakan, dalam arti matematika). 391 A variabel acak dapat mengambil seperangkat nilai yang mungkin berbeda (mirip dengan variabel matematika lainnya), masing-masing dengan probabilitas yang terkait, berbeda dengan variabel matematika lainnya.
Nilai A variabel acak ini mungkin bisa mewakili hasil yang mungkin dari percobaan belum-to-be-dilakukan, atau mungkin hasil dari eksperimen masa lalu yang nilainya sudah ada tidak pasti (misalnya, karena pengukuran tidak tepat atau ketidakpastian kuantum). Mereka mungkin juga secara konseptual merupakan salah satu hasil dari "obyektif" proses acak (seperti bergulir mati) atau "subjektif" keacakan yang dihasilkan dari pengetahuan yang tidak lengkap dari kuantitas. Arti dari probabilitas ditugaskan untuk nilai-nilai potensial dari variabel acak bukan bagian dari teori probabilitas itu sendiri tetapi bukan terkait dengan argumen filosofis atas interpretasi probabilitas. Matematika bekerja sama terlepas dari interpretasi tertentu digunakan.

Fungsi matematika yang menggambarkan nilai yang mungkin dari variabel acak dan probabilitas yang terkait dikenal sebagai distribusi probabilitas. Variabel acak dapat diskrit, yaitu, mengambil salah satu dari daftar yang ditentukan terbatas atau dihitung dari nilai-nilai, diberkahi dengan fungsi massa probabilitas, karakteristik dari distribusi probabilitas; atau terus-menerus, mengambil setiap nilai numerik dalam selang waktu atau koleksi interval, melalui fungsi kepadatan probabilitas yang merupakan karakteristik dari distribusi probabilitas; atau campuran kedua jenis. Realisasi dari variabel acak, yaitu, hasil nilai acak memilih sesuai dengan fungsi distribusi probabilitas variabel, disebut variates acak.

Pengobatan matematika formal variabel acak adalah topik dalam teori probabilitas. Dalam konteks itu, variabel acak dipahami sebagai fungsi didefinisikan pada ruang sampel yang output adalah nilai-nilai numerik.
Definition
Sebuah variabel acak X \ usus \ Omega \ ke E adalah fungsi terukur dari set hasil yang mungkin \ Omega beberapa set E. Definisi aksiomatik teknis membutuhkan \ Omega menjadi ruang probabilitas dan E untuk menjadi ruang terukur (lihat Ukur definisi -theoretic).

Perhatikan bahwa meskipun X biasanya fungsi bernilai real (E = \ mathbb {R}), tidak mengembalikan probabilitas. Probabilitas hasil yang berbeda atau set hasil (peristiwa) yang sudah diberikan oleh P ukuran probabilitas dengan yang \ Omega dilengkapi. Sebaliknya, X menjelaskan beberapa properti numerik yang hasil-hasil di \ Omega mungkin. Misalnya. jumlah kepala dalam koleksi acak koin membalik; ketinggian acak orang. Probabilitas bahwa X mengambil nilai \ leq 3 adalah ukuran dari himpunan hasil \ {\ omega \ di \ Omega: X (\ omega) \ leq 3 \}, dinotasikan P (X \ leq 3).


Discrete random variable
Dalam sebuah percobaan seseorang dapat dipilih secara acak, dan satu variabel acak mungkin ketinggian seseorang. Matematis, variabel acak ditafsirkan sebagai fungsi yang memetakan orang dengan tinggi orang tersebut. Terkait dengan variabel acak adalah distribusi probabilitas yang memungkinkan perhitungan probabilitas bahwa tingginya di setiap bagian dari nilai yang mungkin, seperti probabilitas bahwa ketinggian antara 180 dan 190 cm, atau probabilitas bahwa tingginya baik kurang dari 150 atau lebih dari 200 cm.
Variabel lain random mungkin menjadi nomor seseorang dari anak-anak; ini adalah variabel acak diskrit dengan nilai integer non-negatif. Hal ini memungkinkan perhitungan probabilitas untuk nilai integer individu - fungsi massa probabilitas (PMF) - atau set nilai-nilai, termasuk set terbatas. Misalnya, acara yang menarik mungkin "bahkan jumlah anak". Untuk kedua terbatas dan tidak terbatas acara set, probabilitas mereka dapat ditemukan dengan menjumlahkan PMFs elemen; yaitu, kemungkinan bahkan jumlah anak adalah tak terbatas jumlah PMF (0) + PMF (2) + PMF (4) + ...
Dalam contoh-contoh seperti ini, ruang sampel (himpunan semua orang mungkin) sering ditekan, karena secara matematis sulit untuk menggambarkan, dan nilai-nilai yang mungkin dari variabel acak kemudian diperlakukan sebagai ruang sampel. Tapi ketika dua variabel acak diukur pada ruang sampel yang sama dari hasil, seperti ketinggian dan jumlah anak-anak yang dihitung pada orang acak yang sama, lebih mudah untuk melacak hubungan mereka jika diakui bahwa kedua tinggi dan jumlah anak datang dari orang acak yang sama, misalnya sehingga pertanyaan apakah variabel acak tersebut berkorelasi atau tidak dapat diajukan.
Distribution functions of random variables
Jika acak variabel X \ usus \ Omega \ ke \ mathbb {R} didefinisikan pada ruang probabilitas (\ Omega, \ mathcal {F}, P) diberikan, kita dapat mengajukan pertanyaan seperti "Berapa besar kemungkinan itu bahwa nilai X adalah sama dengan 2? ". Ini adalah sama dengan probabilitas acara \ {\ omega: X (\ omega) = 2 \} \, \! yang sering ditulis sebagai P (X = 2) \, \! atau p_X (2) untuk pendek.
Merekam semua probabilitas ini rentang output variabel random bernilai real X menghasilkan distribusi probabilitas X. Distribusi probabilitas "lupa" tentang ruang probabilitas tertentu yang digunakan untuk mendefinisikan X dan hanya mencatat probabilitas berbagai nilai X. Seperti distribusi probabilitas selalu dapat ditangkap oleh kumulatif fungsi distribusi F_X nya (x) = \ operatorname {P} (X \ le x)
dan kadang-kadang juga menggunakan fungsi kepadatan probabilitas, p X. Dalam hal ukuran-teori, kita menggunakan variabel X acak untuk "mendorong maju" P ukuran pada \ Omega ke p_X ukuran pada \ mathbb {R}. Ruang probabilitas yang mendasari \ Omega adalah perangkat teknis yang digunakan untuk menjamin adanya variabel acak, kadang-kadang untuk membangun mereka, dan untuk mendefinisikan pengertian seperti korelasi atau kemerdekaan berdasarkan pada distribusi gabungan dari dua atau lebih acak variabel pada probabilitas yang sama ruang. Dalam prakteknya, orang sering membuang ruang \ Omega sama sekali dan hanya menempatkan ukuran pada \ mathbb {R} yang memberikan ukuran 1 ke garis nyata utuh, yaitu, satu bekerja dengan distribusi probabilitas bukan variabel acak.

Joint probability distribution
Dalam studi probabilitas, mengingat setidaknya dua variabel acak X, Y, ..., yang didefinisikan pada ruang probabilitas, distribusi probabilitas gabungan untuk X, Y, ... adalah distribusi probabilitas yang memberikan probabilitas bahwa setiap X, Y, ... jatuh dalam kisaran tertentu atau set nilai diskrit ditentukan untuk variabel tersebut. Dalam kasus hanya dua variabel acak, ini disebut distribusi bivariat, tapi konsep umum ke sejumlah variabel acak, memberikan distribusi multivariat. Distribusi probabilitas gabungan dapat dinyatakan baik dalam hal fungsi distribusi kumulatif sendi atau dalam hal fungsi probabilitas gabungan densitas (dalam kasus variabel kontinu) atau fungsi massa probabilitas gabungan (dalam kasus variabel diskrit). Ini pada gilirannya dapat digunakan untuk menemukan dua jenis distribusi: distribusi marginal memberikan probabilitas untuk setiap salah satu variabel tanpa referensi untuk setiap rentang tertentu nilai-nilai untuk variabel lain, dan distribusi probabilitas bersyarat memberikan probabilitas untuk setiap subset dari variabel tergantung pada nilai-nilai tertentu dari variabel yang tersisa.
Coin Flips
Pertimbangkan flip dari dua koin yang adil; biarkan A dan B menjadi variabel acak diskrit yang terkait dengan hasil pertama dan kedua koin membalik masing-masing. Jika menampilkan koin "kepala" kemudian terkait variabel acak adalah 1, dan 0 sebaliknya. Sendi fungsi massa probabilitas A dan B mendefinisikan probabilitas untuk setiap pasangan hasil. Semua hasil yang mungkin adalah
Karena setiap hasil sama kemungkinan fungsi massa probabilitas gabungan menjadi
Kapan . Karena membalik koin independen, fungsi massa probabilitas gabungan adalah produk dari marginals:
Secara umum, setiap sandal koin adalah percobaan Bernoulli dan urutan membalik mengikuti distribusi Bernoulli.
Dice Rolls
Pertimbangkan gulungan dadu yang adil dan membiarkan A = 1 jika nomor tersebut bahkan (yaitu 2, 4, atau 6) dan A = 0 jika tidak. Selanjutnya, biarkan B = 1 jika nomor perdana (yaitu 2, 3, atau 5) dan B = 0 jika tidak.

1
2
3
4
5
6
A
0
1
0
1
0
1
B
0
1
1
0
1
0
Kemudian, distribusi gabungan A dan B, yang dinyatakan sebagai fungsi massa probabilitas, adalah


Probabilitas ini tentu berjumlah 1, karena kemungkinan beberapa kombinasi A dan B terjadi adalah 1.
Mixed Case
The "kepadatan gabungan campuran" dapat didefinisikan di mana satu variabel random X kontinu dan variabel lainnya random Y adalah diskrit, atau sebaliknya, sebagai:


Salah satu contoh dari situasi di mana satu mungkin ingin menemukan distribusi kumulatif dari satu variabel acak yang kontinu dan variabel acak lain yang diskrit muncul ketika seseorang ingin menggunakan regresi logistik dalam memprediksi probabilitas hasil biner Y bersyarat pada nilai hasil X. didistribusikan terus menerus satu harus menggunakan "campuran" kepadatan gabungan ketika menemukan distribusi kumulatif hasil biner ini karena variabel input (X, Y) awalnya didefinisikan sedemikian rupa bahwa seseorang tidak bisa secara kolektif menetapkan itu baik fungsi kepadatan probabilitas atau fungsi massa probabilitas. Secara formal, fX, Y (x, y) adalah fungsi kepadatan probabilitas (X, Y) sehubungan dengan ukuran produk pada dukungan masing-masing X dan Y. Salah satu dari dua dekomposisi tersebut kemudian dapat digunakan untuk memulihkan sendi kumulatif fungsi distribusi:
Definisi generalizes untuk campuran nomor sewenang-wenang variabel acak diskrit dan kontinu.

Wasserstein metric

Dalam matematika, yang Wasserstein (atau Vasershtein) metrik adalah fungsi jarak didefinisikan antara distribusi probabilitas pada diberikan ruang metrik M.

Secara intuitif, jika setiap distribusi dipandang sebagai jumlah unit "kotoran" menumpuk di M, metrik adalah minimum "biaya" untuk mengubah satu tumpukan ke yang lain, yang diasumsikan jumlah kotoran yang perlu dipindahkan kali jarak itu harus dipindahkan. Karena analogi ini, metrik ini dikenal dalam ilmu komputer sebagai jarak penggerak bumi.

Nama "Wasserstein jarak" diciptakan oleh RL Dobrushin pada tahun 1970, setelah matematikawan Rusia Leonid Vaseršteĭn yang memperkenalkan konsep pada tahun 1969. Sebagian besar publikasi berbahasa Inggris menggunakan ejaan Jerman "Wasserstein" (dikaitkan dengan nama "Vasershtein" menjadi Jerman asal).


Definition
Biarkan (M, d) menjadi ruang metrik yang setiap ukuran probabilitas pada M adalah ukuran Radon (yang disebut ruang Radon). Untuk p 1, biarkan Pp (M) menunjukkan koleksi semua kemungkinan langkah-langkah μ M dengan saat pth terbatas: untuk beberapa x0 di M,
Kemudian PTH Wasserstein jarak antara dua ukuran probabilitas μ dan ν di Pp (M) didefinisikan sebagai

dimana Γ (μ, ν) menunjukkan koleksi semua langkah di M × M dengan marginals μ dan ν pada faktor pertama dan kedua masing-masing. (Set Γ (μ, ν) juga disebut himpunan semua kopling dari μ dan ν.) dia di atas jarak biasanya dilambangkan Wp (μ, ν) (biasanya antara penulis yang lebih memilih "Wasserstein" ejaan) atau ℓp (μ, ν) (biasanya antara penulis yang lebih memilih "Vasershtein" ejaan). Sisa dari artikel ini akan menggunakan notasi Wp. The Wasserstein metrik dapat dipersamakan didefinisikan oleh


dimana E [Z] menunjukkan nilai yang diharapkan dari variabel Z acak dan infimum yang diambil alih semua distribusi bersama dari random variabel X dan Y dengan marginals μ dan ν masing-masing.

The Wasserstein metrik adalah cara alami untuk membandingkan distribusi probabilitas dari dua variabel X dan Y, di mana satu variabel berasal dari lain dengan kecil, gangguan non-seragam (acak atau deterministik). Dalam ilmu komputer, misalnya, metrik W1 secara luas digunakan untuk membandingkan distribusi diskrit, misalnya histogram warna dua gambar digital; melihat jarak bumi mover untuk lebih jelasnya.



















Daftar Pustaka