Zum Verständnis mal 'ne Info:
Diese Klingeltöne mit Stimmen, Geräuschen usw. sind digitalisierte ("gesamplete") Sound-Daten. Vom Prinzip her so ähnlich wie bei einer CD. Bei einem Konzert werden da z.B. alle Instrumente aufgezeichnet, zusammengemischt, und die "Gesamtsumme" aller Klänge (sozusagen der gesamte Klang"brei") als Ganzes in digitale Daten umgewandelt.
Nach dem gleichen Prinzip funktionieren auch einige Handy-Klingelton-Formate.
MIDI-Dateien dagegen enthalten nur eine Art Steuercode, mit dem ein Synthesizer selbstständig Töne und Klänge erzeugt. Da steht dann (vereinfacht gesagt) drin: "Synthesizer: spiele bitte für 1sec ein lautes tiefes C mit dem Klang einer Trompete". Und wenn der Synthesizer im Handy brav ist, macht er's auch 
Ein Orchesterstück im MIDI-Format besteht folglich nicht aus Klangaufnahmen, sondern statt dessen aus einer Art digitalisierter Partitur: da stehen zu jedem Ton Informationen über Tonhöhe, -dauer, -Laustärke und Instrument drin.
Das erklärt z.B., warum ein drei-Minuten-Stück im WAV-Format mit CD-Qualität 30MB groß ist, im (komprimierten) MP3-Format immerhin noch 3MB, als MIDI-File dagegen nur 30KB 
Und darum klingen MIDI-Files auch je nach Handy-Typ bzw. PC-Soundkarte unterschiedlich: ein T610 hat z.B. einen etwas anderen Klang für das Instrument "Trompete" eingespeichert als meinetwegen mein PC.
Und schließlich erklärt das auch, warum es im MIDI-Format keinen Gesang oder Sprache gibt: weil Synthesizer halt nicht (ordentlich) sprechen können 
Mal noch ein Vergleich, um's vielleicht klarer zu machen:
Wenn's dabei nicht um Musik, sondern um Bilder ginge, entspräche WAV dem BMP-Format (wo schön der Reihe nach jeder einzelne Bildpunkt aufgeführt ist), und MP3 wäre wahrscheinlich JPG (komprimiert, mit leichten Qualitätseinbußen). MIDI dagegen wäre wohl so was wie 'ne Corel-Draw-Datei oder so: dort wird zu 'nem Kreis z.B. nur gespeichert, an welcher Position er liegt, wie groß er ist, welche Farbe er hat u.ä.
So... hoffe, ich habe dazu einen Teil zur allgemeinen Aufklärung beitragen können 