Statistiek, de wetenschap van het verzamelen, analyseren, presenteren, en interpreteren van gegevens. De behoefte van de overheid aan volkstellingsgegevens en informatie over allerlei economische activiteiten vormde een van de eerste aanzetten tot het vakgebied van de statistiek. Tegenwoordig heeft de behoefte om de grote hoeveelheden gegevens die op veel toegepaste gebieden beschikbaar zijn om te zetten in bruikbare informatie zowel theoretische als praktische ontwikkelingen in de statistiek gestimuleerd.
Gegevens zijn de feiten en cijfers die worden verzameld, geanalyseerd, en samengevat voor presentatie en interpretatie. Gegevens kunnen worden geclassificeerd als kwantitatief of kwalitatief. Kwantitatieve gegevens meten hoeveel of hoeveel van iets, en kwalitatieve gegevens geven labels, of namen, voor categorieën van soortgelijke items. Stel bijvoorbeeld dat een bepaalde studie geïnteresseerd is in kenmerken als leeftijd, geslacht, burgerlijke staat en jaarinkomen voor een steekproef van 100 personen. Deze kenmerken zouden de variabelen van het onderzoek worden genoemd, en de gegevenswaarden voor elk van de variabelen zouden aan elk individu worden gekoppeld. Zo zouden de gegevenswaarden 28, man, alleenstaand en $30.000 worden geregistreerd voor een 28-jarige alleenstaande man met een jaarinkomen van $30.000. Met 100 individuen en 4 variabelen zou de gegevensreeks 100 × 4 = 400 items bevatten. In dit voorbeeld zijn leeftijd en jaarinkomen kwantitatieve variabelen; de overeenkomstige gegevenswaarden geven aan hoeveel jaar en hoeveel geld elk individu heeft. Geslacht en burgerlijke staat zijn kwalitatieve variabelen. De labels man en vrouw geven de kwalitatieve gegevens voor geslacht, en de labels alleenstaand, gehuwd, gescheiden en weduwnaar geven de burgerlijke staat aan.
Sample survey-methoden worden gebruikt om gegevens te verzamelen uit observationele studies, en experimentele ontwerpmethoden worden gebruikt om gegevens te verzamelen uit experimentele studies. Het gebied van de beschrijvende statistiek houdt zich voornamelijk bezig met methoden voor het presenteren en interpreteren van gegevens met behulp van grafieken, tabellen en numerieke samenvattingen. Wanneer statistici gegevens van een steekproef – d.w.z. een deelverzameling van de populatie – gebruiken om uitspraken te doen over een populatie, voeren zij statistische gevolgtrekkingen uit. Schatting en hypothesetoetsing zijn procedures die worden gebruikt om statistische gevolgtrekkingen te maken. Vakgebieden als gezondheidszorg, biologie, scheikunde, natuurkunde, onderwijs, techniek, bedrijfsleven en economie maken veelvuldig gebruik van statistische gevolgtrekkingen.
Methoden van waarschijnlijkheid werden aanvankelijk ontwikkeld voor de analyse van gokspelen. Waarschijnlijkheid speelt een sleutelrol bij statistische gevolgtrekkingen; zij wordt gebruikt om maatstaven te verschaffen voor de kwaliteit en de nauwkeurigheid van de gevolgtrekkingen. Veel van de methoden voor statistische gevolgtrekkingen worden in dit artikel beschreven. Sommige van deze methoden worden voornamelijk gebruikt voor onderzoeken met één variabele, terwijl andere, zoals regressie- en correlatieanalyse, worden gebruikt om conclusies te trekken over relaties tussen twee of meer variabelen.