Po dyskusji zakończonej 2 października 2016 artykułowi Odchylenie standardowe odebrano status Dobrego Artykułu. Zobacz dyskusję |
Po dyskusji zakończonej 13 września 2007 artykułowi Odchylenie standardowe przyznano status Dobrego Artykułu. Zobacz dyskusję |
Po głosowaniu zakończonym 3 lipca 2007 artykułowi Odchylenie standardowe nie przyznano statusu Artykułu na Medal. Zobacz dyskusję |
Skrót artykułu Odchylenie standardowe znajdował się w sierpniu 2008 na stronie głównej Portalu ekonomicznego w rubryce Artykuł miesiąca. Wikiprojekt:Ekonomia • Portal:Ekonomia • Kategoria:Ekonomia |
Proponuje zamienić pojęcie odchylenie standardowe na zakres różnic od normy (w rzeczywistości). Przy czym przy wykresach opisujących standard, a nie normę rzeczywistości zaznaczyć zakres różnic od standardu/standardów.
Spotkałem się też z wzorem:
(Np. tu: http://vibrolab.simr.pw.edu.pl/lppwd00.pdf str. 24)
Jakoś mi się wydaje nie przystawać do powyższych, ale nie jestem matematykiem. Czy ktoś kompetentny może to wyjaśnić i uzupełnić tę niezwykle ważną stronę.
Z tego co mi wiadomo to powyższa zależność jest JEDYNĄ którą naukowcy rozumieją jako odchylenie standardowe dla serii pomiarów. I to właśnie tą (../n(n-1)) podaje się w wynikach typu 17,8+-0,3 To jest artykuł napisany z punktu widzenia statystyki używanej w ekonomii czy naukach społecznych, ale nijak ma się do unormowanych miedzynarodowych standardów dotyczących niepewności.
Mój komentarz do głosu przeciw. Proszę o wyjaśnienie (i ewentualnie) poprawki. Artykuł zawiera dużo interesujących i ważnych informacji, ale IMHO sposób ich prezentacji jest bardzo chaotyczny i go dyskwalifikuje do medalu. W szczególności:
Myślę, że ilość informacji w artykule jest wystarczająca do medalu, więc żeby być bardziej konstruktywnym, naturalna (dla mnie) struktura artykułu wyglądałaby następująco:
I mam pytanie natury merytorycznej na temat "błędnie nazywanego estymatorem nieobciążonego". Czy tak rzeczywiście się go nazywa w literaturze? Bezsprzecznie kwadrat tego wyrażenia jest (ogólnie) nieobciążonym estymatorem wariancji (dowód np. w przypisie 5), a ponieważ funkcja x^2 jest nieliniowa to na mocy nierówności Jensena wynika od razu, że wzór na odchylenie standardowe jest obciążony. Moje osobiste zdanie jest takie, że popularność wzoru wynika nie z jego prostoty czy braku obciążenia (jak w artykule), ale z jego związku z nieobciążonym estymatorem wariancji.
Pozdrawiam i liczę, że w bliskiej przyszłosci z czystym sumieniem będę mógł zmienić swój głos. Qblik ¿Ø? 20:15, 4 cze 2007 (CEST)
Odnoszę się do uwag powyżej:
Jeśli chodzi o proponowany plan, to nie podoba mi się najpierw podanie wzoru na "odchylenie standardowe w próbce", a potem omawianie estymatorów, skoro ten wzór (jak by go nie nazywać) jest też estymatorem. Poza tym w porządku.
Ten błąd z nazwaniem go estymatorem nieobciążonym zdarza się niestety często. Żeby daleko nie szukać jest np. tutaj: skrypt z Katedry Fizyki Politechniki Łódzkiej (str 5).
Dziękuję za uwagi. Chętnie to pozmieniam, ale chciałbym najpierw dojść do consensusu. Zaczekam więc na odpowiedź. Olaf @ 20:45, 4 cze 2007 (CEST)
2. We wstępie razie mnie chyba głównie zdanie: "Odchylenie standardowe można obliczyć w szczególności dla dowolnej skończonej próbki, jednak wyniki mają sensowną interpretację, gdy rozkład zmiennej w populacji jest zbliżony[1] do normalnego i nie ma zbyt wielu[1] elementów odstających w porównaniu do wielkości próbki." Dla mnie jest zbyt abstrakcyjne i niezrozumiałe: jaką interpretację, jakiej populacji, jakiego rozkładu. Moim zdaniem zacząć trzeba prościej: "Język stosowany w pierwszym akapicie powinien być prosty, zrozumiały dla osoby posiadającej wiedzę na poziomie liceum ogólnokształcącego.", teraz chyba nie jest. Przy tak długim artykule wstęp może mieć dwa, trzy akapity, IMO. Po prostu zaczął bym wolniej. IMO, wstęp jest wizytówką artykułu, dlatego standard oceny wstępu powinien być nieco wyższy.
3 i 5. Zgadzam się, że "Odchylenie standardowe to liczba, ale odchylenie standardowe to także narzędzie." Moim zdaniem to jest kluczowy problem i wokół niego powinna się obracać cała struktura artykułu. "Liczba" jest prostsza od "narzędzia", więc zacząłbym od populacji (gdzie OS jest liczbą), opisał wzorki, własności. Zgadzam się, że kwestia estymatorów (narzędzi) jest delikatna. Upierałbym się wciąż, że wzór na "odchylenie standardowe w próbce" w "popularnej wersji" powinien być opisany jako taki (ponieważ jest tak powszechnie znany i jest to weryfikowalne). Po tym postarałbym się wyjaśnić po co nam odchylenie standardowe w próbce, jako wstęp do estymacji, alternatywnych definicji, własności, itp. Jedyna wada takiego rozwiązania, to że praktyczne (estymacyjne) aspekty OS są przesunięte do drugiej części artykułu. Ale to jest chyba nieuniknione. Dalej piszesz: "Nazwa "odchylenie standardowe w próbce" jest moim zdaniem nieporozumieniem." Mimo, że się z Tobą zgadzam, to brzmi trochę jak POV/OR: Nazwa może być nieporozumieniem, ale jeżeli jest powszechnie stosowana i weryfikowalna, to powinna zostać razem ze wzorem. Myślę, że mogłoby to nawet wzbogacić artykuł dając pretekst do omówienia (w dalszej części) dlaczego jeden wzór nie wystarczy, i bardziej skomplikowanych tematów. Może rozwiewa to także trochę Twoje wątpliwości "Jeśli chodzi o proponowany plan, to nie podoba mi się najpierw podanie wzoru na "odchylenie standardowe w próbce", a potem omawianie estymatorów, skoro ten wzór (jak by go nie nazywać) jest też estymatorem." Wyobrażam sobie ten (kontrowersyjny) wzór trochę jak przejście od populacji (bo wzór jest podobny do wzoru populacyjnego) do estymacji (z wszystkimi komplikacjami).
4. Sekcja "Różne wzory dla różnych przypadków": Brzmi jak poradnik, który na dodatek IMO miernie spełnia swoje zadania. Dlatego się przyczepiłem. Ogólnie, gdyby poprawić, to może zostać. Ale w obecnej formie mnie po prostu razi.
Lubię czytać medalowe hasła na en wiki, i niestety, na pl wiki poprzeczka często wydaje się być dużo niżej (IMO, ze względu na nastawienie na ilość). Skrytykowałem, żeby podciągnąć hasło w górę. Ale ogólnie i tak jest dobre i wartościowe, i nie wątpię, że po poprawkach może dostać medal. Qblik ¿Ø? 21:31, 4 cze 2007 (CEST)
Sprawdziłem dokładnie kwestię nazwy tego nieszczęsnego estymatora. Nie jest to bynajmniej takie jednoznaczne. Po angielsku jest "sample standard deviation", czyli dosłownie "próbkowe odchylenie standardowe", ale po polsku nic takiego nie funkcjonuje. W Googlu jest jednak kilka wersji tej nazwy, z czego dwie różne użyłeś powyżej:
Jak widać najpopularniejsza jest forma "z próby" i nie jest to żaden mój OR. Jest to też jedyna forma, która oddaje jego sens, bo to nie żadne odchylenie wewnątrz próby, tylko odchylenie w populacji estymowane z próby. Mam nadzieję, że zgodzisz się uznać tę wersję za właściwą, a wersje "o.s. w próbie", "o.s. próby", za błędne.
Teraz następna sprawa - czy na pewno określenie "odchylenie standardowe z próby" dotyczy tylko tego jednego estymatora? Według mnie może równie dobrze dotyczyć estymatora największej wiarygodności bo on też jest liczony z próby. W en:Standard deviation mamy obydwa te estymatory pod nazwą "sample standard deviation". Proponuję zamiast tytułu "estymatory" napisać "odchylenie standardowe z próby", a zamiast "Najpopularniejszy wzór" - "pierwiastek estymatora nieobciążonego wariancji". Przynajmniej jednoznacznie oddaje naturę tego wzoru. Co Ty na to?
Dałeś mi niezłe zadanie ze wstępem. Z jednej strony powinien streszczać cały artykuł (patrz zalecenia). Czyli muszę napisać i o odchyleniu z próby i w populacji. Z drugiej strony kiedy próbowałem tak napisać, stwierdziłeś, że używam zbyt skomplikowanych stwierdzeń. Wychodzi, że powinienem zdefiniować we wstępie próbę i populację, co jest raczej trudne. No nic, zobaczymy, może jakoś z tego wybrnę.
Jeszcze ostatnia sprawa - co konkretnie razi Cię w sekcji "Różne wzory dla różnych przypadków"? Stwierdziłeś, że gdyby ją poprawić, mogłaby być. Ale co poprawić? Czy zatem widzisz tam jakieś błędy merytoryczne? (jakie?). Czy też chodzi tylko styl?
Mam nadzieję, że więcej nie będę musiał Cię już męczyć szczegółami.
Pozdrawiam, Olaf @ 19:35, 5 cze 2007 (CEST)
Tabelkę c4 przerzuciłem. Co do nierówności Jensena użytej do dowodu obciążenia, to już raz chciałem udowodnić to za pomocą nierówności Cauchy'ego dla średnich (wynikającej z Jensena), a potem zauważyłem że popełniam błąd.
Dowód, że jeśli jest estymatorem nieobciążonym wariancji, to nie może być w ogólnym przypadku estymatorem nieobciążonym odchylenia standardowego.
jest estymatorem nieobciążonym, więc gdyby obliczyć wyniki M-krotnie, uzyskując wartości , to:
czyli:
pierwiastkując:
Pod znakiem granicy jest średnia kwadratowa. Z twierdzenia Cauchy'ego o średnich wiadomo, że średnia kwadratowa jest zawsze większa lub równa arytmetycznej, czyli:
Jednak równość może zachodzić tylko, gdyby wszystkie wartości były równe, co może mieć w ogólnym przypadku miejsce tylko dla zdegenerowanego rozkładu o zerowym odchyleniu, lub próbie obejmującej całą populację. W każdym innym przypadku:
Stąd:
Czyli wzór (3) zaniża wartość odchylenia standardowego.
Problem w tym, że o ile kierunek obciążenia da się w ten sposób wyznaczyć, to chyba nie można w ten sposób udowodnić obciążenia. Dowód jest błędny, gdyż z tego, że dla każdego nie wynika . Nadal może być równość granic, przy której obciążenia nie ma.
Jeśli jednak znasz jakąś metodę udowodnienia obciążenia za pomocą nierówności Jensena lub Cauchy'ego, dodaj proszę. Olaf @ 02:49, 8 cze 2007 (CEST)
Powiem coś mało popularnego, ale moim zdaniem błędem jest pisanie o odchyleniu standardowym zmiennej losowej, bo tak naprawdę to mamy w nim do czynienia z rodziną zmiennych losowych czy najwyżej zmiennych losowych innych zmiennych losowych. Chodzi o to, że wszystkim się myli znaczenie odchylenia st. Jeżeli mamy mówić o odchyleniu absolutnym czy przeciętnym, to jasne, że mamy zmienną losową i jej realizacje. Niestety w przypadku odch. st. jest bardziej skomplikowana sprawa. Przede wszystkim powinniśmy zadać sobie pytanie skąd się ono bierze. Dlaczego ma zastępować odchylenie absolutne (bez wchodzenia w pośrednie tłumaczenia)? Otóż chyba chodzi właśnie o to, że odch st mówi o rodzinie zmiennych losowych. Najlepiej to wyjaśnić na przykładzie. W danych T okresach mamy pewną zm X jakiejś cechy. Zmienna ta dzieli się na wiele zmiennych w każdym t-tym okresie. W każdym t-tym okresie jest nowa NIEZALEŻNA zmienna Xt. Dostajemy więc próbę (a nie próbkę) losową. Ponieważ my chcemy obliczyć najpierw średnią, bierzemy średnią z realizacji zmiennych Xt. Zmienne są niezależne, więc dodajemy najpierw wektory: [x(1),000...0]+[0,x(2),00...0]+...[00...x(T)]. Za wektory podstawiamy realizacje. Widzimy, że ze względu na ortogonalność dostajemy bazę przestrzeni wektorowej. Skoro dostajemy wektor [x1,x2...xT], to mimo, że jest to konkretny punkt w przestrzeni, obliczymy średnią z realizacji, czyli po prostu średnią ze zmiennej X. Teraz widać, dlaczego nie możemy zastosować odch. absol. Nasze faktyczne wartości xt są wektorami w T-wymiarowej przestrzeni (a nie w 1-wymiarowej-osi). Aby obliczyć odległość od średniej stosujemy wzór na odległość. Dostajemy kwadraty odległości i dzielimy na T. Uzyskujemy wariancję, pierwiastkujemy i mamy odch. st.
Jeśli każda Xt ma ten sam rozkład, skończoną wariancję i wartość oczekiwaną wtedy, musimy mieć rozkład Gaussa zmiennej X. Pytanie tylko, co może sprawiać, że rozkłady są inne? Skoro mamy pełną niezależność, przestrzeń jest jednorodna, nie ma innych warunków, wtedy dostajemy Gaussa. Zatem w przeciwieństwie do tego co napisano w art. zmienne raczej powinny mieć rozkład Gaussa, jeśli mają się wzorowo zachowywać. Jeśli natomiast zmienne Xt będą zależne od siebie, wzór na wariancję musi być uogólniony na twierdzenie cosinusów, gdyż kosinus kąta skorelowanych zmiennych jest równy współczynnikowi korelacji Pearsona.
Zgłosił: pj 85.89.191.133 (dyskusja) 21:57, 11 sty 2009 (CE
Że sie komus chciało pisać...
W przypisie w punkcie 8 jest fragment zaczynający się od: "Drugi składnik", który jest niezrozumiały. W jaki sposób E((u-xi)(u-x'))=E((u-x')^2) ??? Proszę o wyjaśnienie
Zgłosił: pj 85.89.191.133 (dyskusja) 19:06, 4 sty 2010 (CET)
W dowodzie z przypisu 8 pominięto trochę za dużo. Dowodzone twierdzenie jest prawdziwe, ale moje wątpliwości budzi krok
Chodzi o zdanie: "można z prawdopodobieństwem 95% przyjąć, że wartość z populacji zawiera się w 95-procentowym przedziale ufności". Nie jest to prawdą. Parametr populacji to stała, nie dotyczy jej żadne "prawdopodobieństwo". Albo gdzieś się znajduje, albo nie. To przedział ufności jest zmienną losową. Poprawnie winno być: "z prawdopodobieństwem 95% przedział ufności pokrywa rzeczywistą wartość parametru populacji."
Uczę się języka hebrajskiego. Tutaj go sobie utrwalam.
Zawartość tej strony pochodzi stąd.