probability mass function < Wahrscheinlichkeitstheorie < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 16:25 Sa 01.07.2006 | Autor: | Katya |
Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.
Hallo, könnte mir bitte jemand erklären, was 'probability mass function' ist und wie man sie berechnet. Wenn möglich, nicht bloss die Formel hinschreiben (die hab ich schon sowieso), sondern mit einem Beispiel erklären. Vor allem verstehe ich nicht so ganz was der Unterschied zwischen der 'mass probability function' und der 'relativen Häufigkeit' ist.
Danke
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 18:51 Sa 01.07.2006 | Autor: | Katya |
Naja, in Wikipedia hab ich am aller ersten nachgeschaut.
Die erklärung zu dem Unterschied hab ich leider gar nicht verstanden.
Aber trotzdem danke
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 19:32 Sa 01.07.2006 | Autor: | Walde |
Hi Katya,
Also die Pmf (oder zu deutsch die Wahrscheinlichkeitsfunktion) gibt für eine dikrete (das ist ganz wichtig) Zufallsvariable X, die W'keit an, dass X genau den Wert k annimt. Z.B bei einer Münze gibt sie die W'keit für Wappen und Zahl an. Das muss ja bei einer verfälschten Münze nicht immer 0,5 und 0,5 sein, sondern z.B auch 1/3 und 2/3.
Die W'keitsfkt. ist das Analogon zur Dichtefkt. bei stetigen ZV.
Der Unterschied zur rel. Häufigkeit ist, wie Karl schon gesagt hat der, dass die rel. H. eine empirische Grösse ist, also auf einem Datensatz oder einer Stichprobe beruht (daraus errechnet wird), während die W'keitsfkt., dass w'keitstheoretische Modell hinter einem solchen Datensatz ist. Die rel. H. wird zum Beispiel als Schätzer für die W'keitsfkt. benutzt, wenn man diese nicht kennt (und man kennt sie eigentlich fast nie).
Z.B. Nimm eine Münze, deren W'keitsfkt. so ausssieht
P(X=Wappen)=0,5 und P(X=Zahl)=0,5
Wirf sie 10 mal. Ein Stichprobe könnte so aussehen: 4 mal Wappen 6 mal Zahl. Die rel. Häufigkeit für Wappen wäre also 0,4, die W'keit für das Ereignis Wappen ist aber trotzdem 0,5. Je höher die Stichprobenanzahl, desto besser die Schätzung.
Alles klar?
LG walde
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 19:43 Sa 01.07.2006 | Autor: | Katya |
Also, hab ich des jetzt richtig verstanden?:
Angenommen, ich habe eine Häufigkeitsliste von zehn Wörtern(davon können sich manche wiederholen). Dabei relative Häufigkeiten (RH) von einzelnen Wörtern sind:
w1= 2/10
w2=3/10
w3=4/10
w4=1/10
Die Wahrheitsfunktion wird dann aber für alle Wörter das gleiche sein: 1/10
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 20:01 Sa 01.07.2006 | Autor: | Walde |
Hi Katya.
habe ich folgendes richtig verstanden?
Du möchtest wissen, mit welcher W'eit gewisse Wörte auftreten, z.b. in einem Text. Da du es nicht weisst, liest du einfach zufällig n Wörter (oder die ersten n Wörte, den ersten Abschnitt oder eine Seite) und berechnest die relativen Häufigkeiten.
Dann ist die Antwort: nein! Du weisst nicht, wie die W'keitsfkt. ist.
Du wirst es anhand er rel. Häufigkeitsverteilung nur schätzen können. Der (maximum-likelihood-)Schätzer für die W'keitsfkt. ist gerade deine angegebene Häufigkeitsverteiltung, aber die (absolut sichere) Wahrheit wirst du anhand einer Stichprobe nie erfahren können. Dazu müsstest du den gesamten Text lesen, also die komplette Grundggesamtheit durchsehen, erst dann wüsstest du genau, wie die W'keitfkt. aussieht. Je mehr des Textes du gelesen hast, desto sicherer wird deine Schätzung sein.
L G walde
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 20:09 Sa 01.07.2006 | Autor: | Katya |
Die Aufgabe sieht so aus:
Berechnen Sie relative Entropie der Unigramm-Verteilungen der beiden
Korpora aus Blatt 1. (Im Blatt 1 wurden zwei Frequenzlisten für zwei Korpora erzeugt)
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 20:33 Sa 01.07.2006 | Autor: | Walde |
Hi,
> Die Aufgabe sieht so aus:
>
> Berechnen Sie relative Entropie der Unigramm-Verteilungen
> der beiden
> Korpora aus Blatt 1. (Im Blatt 1 wurden zwei
> Frequenzlisten für zwei Korpora erzeugt)
da ich weder weiss, was eine Unigramm-Verteilung, noch eine Korpora ist, und dein Blatt 1 auch nicht kenne, kann ich dir damit wenig weiterhelfen.
Es sieht aber so aus, als ob du die rel. Entropie einfach so ausrechnest, als ob du durch die rel. Häufigkeiten die W'keitsfkt. gegeben hättest.
Das ist hier auch so, da du anscheinend:
z.B. 10 Kugeln(Worte) mit 4 unterschiedlichen Farben [mm] (w_1 [/mm] bis [mm] w_4 [/mm] ) hast. So wie es deine rel. Häufigkeitsliste von vorhin angibt.
Diese 10 legst du in eine Urne und ziehst dann mit zurücklegen ein paar Worte heraus, schreibst quasi einen Text damit.
In diesem Fall kennst du die wahre W'keitsfkt, die hinter dem Text steht, denn du hast die Kugeln ja selbst in die Urne gelegt (oder jemand hat dir gesagt, welche Worte er und wie oft er sie in die Urne gelegt hat)
Das ist ein wichtiger Unteschied zum Fall in meinem vorherigen Post.
Du musst wissen, dass ich nicht Computerlinguistik studiere und mich desshalb mit deinen Fachbegriffen und typischen Aufgaben in einem solchen Studium nicht auskenne. Ich hab nur allgemeine Kenntnisse in Statistik.
L G walde
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 20:49 Sa 01.07.2006 | Autor: | Katya |
Danke vielmals
Ich glaub, ich hab's einigermassen verstanden. Es war sehr nützlich.
|
|
|
|