Co to jest model? Model jest celowe uproszczenie rzeczywistości. Modele mogą przybierać różne formy. Built-to-skali wyglądają podobnie, równanie matematyczne, arkusz kalkulacyjny, lub osoby, sceny, i wiele innych form. We wszystkich przypadkach, model wykorzystuje tylko część rzeczywistości, dlatego, że jest to uproszczenie. I we wszystkich przypadkach, tak jak się zmniejsza złożoność realnego życia, wybiera się z celem. Celem jest zwrócenie uwagi na szczególne cechy, kosztem utraty zbędne detale. Jeśli zapytać mojego syna, Carmen Elektra jest ostatecznym modelu. Ona zastępuje obraz kobiet w ogóle, i jest wyrazem szczególności atrakcyjny na to. Wzór tunelu aerodynamicznym, może wyglądać jak prawdziwy samochód, przynajmniej na zewnątrz, ale nie potrzebuje silnik, hamulce, opony rzeczywistym, itp. Celem jest skupienie się na aerodynamice, dlatego model ten tylko musi mieć identyczne poza kształt. Modele eksploracji danych, zmniejszenie skomplikowane relacje w danych. Są uproszczony charakterystyczny wzór w danych. To może być dla 2 powodów. Albo przewidzieć lub opisać mechaniki, e. g. „Jakie cechy formularza wskazują kredytowe w przyszłości zwłokę karty?”. A po drugie, aby dać wgląd w kompleksową, wysokiej wzorce wymiarów. Przykładem tego ostatniego może być segmentacji klientów. Na podstawie grupowanie podobnych wzorców atrybutów bazy danych definiuje się grup, takich jak: wysokie dochody / wysokie wydatki / potrzeby kredytu, niskie dochody / potrzeby kredytu, wysokie dochody / oszczędny / nie ma potrzeby kredytowe, itp. 1. Predictive Model opiera się na przyszłości być jak makarony Yogi Berra powiedział: „Przewidywanie jest trudne, zwłaszcza gdy chodzi o przyszłość”. To samo dotyczy eksploracji danych. Co to jest powszechnie określane jako „modeli predykcyjnych”, jest w istocie zadania klasyfikacji. W oparciu o (duże) założenie, że przyszłość będzie podobna do przeszłości, klasyfikujemy przyszłych zdarzeń na ich podobieństwo do poprzednich przypadków. Następnie „przewidzieć” będą zachowywać się jak ostatnie sobowtórów. 2. Nawet Predictive Model „czysto” Czy zawsze (Be) Wyjaśnij, (ed) Modele predykcyjne są powszechnie stosowane w celu zapewnienia wyniki (prawdopodobieństwo churn) lub decyzji (zaakceptować tak / nie). Niezależnie, powinny zawsze towarzyszyć wyjaśnienia, które dają wgląd w modelu. Jest to z dwóch powodów:
buy-in ze strony zainteresowanych podmiotów biznesowych do działania w przepowiedni jest o kapitalnym znaczeniu, a zyski ze zrozumieniem
osobliwości w danych nie rodzą się czasem, i mogą stać się oczywiste od modelu wyjaśnienia
3. Nie chodzi o model, ale wyniki to GeneratesModels zostały opracowane w określonym celu. Zbyt często, górnicy danych zakochać się w ich własnej metodologii (lub algorytmów). Nikogo nie obchodzi. Klientów (nie klientów), którzy powinni korzystać z zastosowaniem modelu interesuje tylko jedno: „Co to oznacza dla mnie:” Dlatego najważniejszą rzeczą na uwadze dane górnika powinno być: „Jak mam informować o korzyściach płynących z tego modelu do mojego klienta? ” Wymaga to cierpliwości, wytrwałości i zdolność do wyjaśniania w kategoriach biznesowych, jak przy użyciu modelu wpłynie na firmy dolnej linii. Praktyka wyjaśniając to swojej babci, a będziesz długą drogę do stania skuteczne. 4. Co jest miarą „sukcesu” modelu? Tak naprawdę są dwie odpowiedzi na to pytanie. Ważnym i prosty, i akademickich i szalenie skomplikowaną. Co liczy się najbardziej to wynik w kategoriach biznesowych. To zależy od odsetek odpowiedzi na bezpośrednie kampanii marketingowej, liczba oszukańczych roszczeń przechwycone, średniej sprzedaży na ołów, prawdopodobieństwo rezygnacji itp. akademickim zagadnieniem jest sposób określenia poprawy modelu daje w najlepszym alternatywnych działań biznesowych . Ten okazuje się być intrygujący, źle zrozumiał pytanie. Jest to granica przyszłych badań naukowych i teorii matematycznej. Bias wariancji rozkładu jest jednym z tych matematycznych granic. 5. Model przewiduje tylko tak dobre, że dane, które chodzą do ItThe starych „Garbage In, Garbage Out” (GIGO), jest oklepane, ale prawdziwe (niestety). Ale to nie do tego tematu. W szerokim zakresie branż, kanałów, produktów i ustawienia udało nam się znaleźć wspólny wzór. Wejście (metoda) zmiennych można zamówić transakcyjnych demograficznych. Przemijające i zmienne na stabilną. Ogólnie rzecz biorąc, zmienne transakcyjnych, które odnoszą się do (ostatnim) działalność posiada najbardziej mocy prognostycznej. Mniej zmiennych dynamicznych, takich jak demografia, wydają się być słabsze predykcyjne. Minusem jest to, że wydajność modelu (metoda „power”) na podstawie zmiennych transakcyjnych i behawioralnych zwykle pogarsza się szybciej w czasie. Dlatego też takie modele wymagają aktualizacji lub przebudowanych częściej. 6. Modele muszą być monitorowane DegradenceIt Wydajność jest nieugięty na zawsze, zawsze kontynuacji wdrażania modelu, przeglądając jego skuteczności. W przeciwnym razie, należy porównać do jazdy samochodem z klapki na oczy. Reckless. Aby monitorować jak model zachowuje wykonywania w czasie, można sprawdzić, czy przepowiednia, generowane przez model, zgodny z wzorcami odpowiedzi, gdy stosowane w prawdziwym życiu. Chociaż nie rocket science, może to być trudne do osiągnięcia w praktyce. 7. Dokładność klasyfikacji nie wystarczający wskaźnik QualityContrary model z powszechnym przekonaniem jest, nawet wśród górników danych, bez jednego numeru dokładności klasyfikacji (R2, Gini-współczynnik, winda, itp.) jest ważny do określenia jakości modelu. Powodem tego nie ma nic wspólnego z modelem, ale raczej z faktu, że model pochodzi jego jakości były dokonywane. Jakość prognoz modelu wymaga co najmniej dwie liczby: jeden numer do wskazania dokładności prognozy (są to często jedyne numery w zestawie) i kolejny numer, aby odzwierciedlać ich uogólnienia. Ten ostatni wskazuje, odporności na zmiany rozkładów wielu zmiennych, w jakim stopniu model będzie trzymać jak zmienia się rzeczywistość bardzo powoli. Stąd, to mierzona przez wielu zmiennych reprezentatywności zmiennych wejściowych w ostatecznym modelu. 8. Rozpoznawcza modeli są tak dobre jak Insight one GiveThere wiele powodów, dlaczego chcesz dać wgląd w stosunkach znaleźć w danych. We wszystkich przypadkach, celem jest, aby duże ilości danych i wykładnicza liczby stosunków smaczny. Ty świadomie ignoruje szczegóły i wskaż podkreśla „ciekawe” i potencjalnie zaskarżeniu. Kluczem tutaj jest, jak Einstein zauważył już, mieć model, który jest tak proste jak to tylko możliwe, ale nie zbyt proste. Powinno być tak proste, jak to możliwe, w celu nałożenia struktury na złożoność. W tym samym czasie, to nie powinien być zbyt prosty, aby obraz rzeczywistości staje się zbyt zniekształcony. 9. Get A Decent Szybkie modelu, a nie Great One LaterIn prawie wszystkich środowisk gospodarczych, to jest o wiele bardziej ważne, aby w rozsądnym modelu wdrażać szybko, zamiast pracować, aby ją poprawić. Jest to z trzech powodów:
Model pracy jest zarabianie pieniędzy; model w budowie nie jest
Gdy model jest na miejscu, masz szansę, aby „uczyć się z doświadczenia”, to samo, nawet na poprawę łagodny – to działa jak powinno?
Najlepszym sposobem, aby zarządzać modeli jest coraz sprawniejsze aktualizacji. Nie ma lepszego praktyce niż robi. . . :)
10. Modeli Data Mining – Co In It For Me Who needs modele eksploracji danych? Jak świat wokół nas staje się coraz bardziej cyfrowe, liczba możliwych zastosowań jest mnóstwo. I jak oprogramowanie data mining jest pełnoletnia, nie trzeba doktora w statystykach już do obsługi takich aplikacji. W prawie każdym przypadku, w którym dane mogą być wykorzystywane do podejmowania słusznych decyzji, nie ma sporą szansę, że modele mogą pomóc. Kiedy 40 lat temu subemitentów zostały zastąpione przez karty wyników (szczególny rodzaj modelu data mining), nikt nie mógł uwierzyć, że taki prosty zestaw reguł decyzyjnych może być skuteczne. Fortunes dokonane przez wczesne wprowadzenie od tamtego czasu. Dalsze readingSome doskonałych książek na Data Mining: Dorian Pyle (2003) Modelowanie biznesowe i Data Mining. ISBN # 155860653-XDorian Pyle (1999) Przygotowanie danych do Data Mining. ISBN # 1558605290Michael Berry & Gordon Linoff (2000) Mastering Data Mining. ISBN # 0471331236Source