%%capture
%pip install accelerate torchaudio datasets
%pip install --upgrade git+https://github.com/huggingface/transformers.git

import requests
import json

def audio_from_json(jsonurl):
    req = requests.get(jsonurl)
    if req.status_code != 200:
        return None

    data = json.loads(req.text)
    if not "audioUrl" in data:
        return None
    return data["audioUrl"]

Audio from this page

audio_url = audio_from_json('https://sverigesradio.se/playerajax/audio?id=8695609&type=publication&publicationid=8695609&quality=medium')

audio_file = audio_url.split('/')[-1].split('?')[0]

!wget {audio_url} -O {audio_file}

--2024-06-25 10:05:10--  https://lyssna-cdn.sr.se/isidor/2024/06/program_dl_boahta_gllok_duopmu_20240624_1637117983_a96.m4a?_h_publicationId=8695609
Resolving lyssna-cdn.sr.se (lyssna-cdn.sr.se)... 192.229.145.89
Connecting to lyssna-cdn.sr.se (lyssna-cdn.sr.se)|192.229.145.89|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 397554 (388K) [audio/mp4]
Saving to: ‘program_dl_boahta_gllok_duopmu_20240624_1637117983_a96.m4a’

program_dl_boahta_g 100%[===================>] 388.24K  --.-KB/s    in 0.07s   

2024-06-25 10:05:11 (5.72 MB/s) - ‘program_dl_boahta_gllok_duopmu_20240624_1637117983_a96.m4a’ saved [397554/397554]

from transformers import pipeline

classifier = pipeline("audio-classification", model="facebook/mms-lid-126")
classifier(audio_file)

[{'score': 0.8646271824836731, 'label': 'est'},
 {'score': 0.11512870341539383, 'label': 'fin'},
 {'score': 0.008503184653818607, 'label': 'isl'},
 {'score': 0.004180074669420719, 'label': 'nno'},
 {'score': 0.001973723527044058, 'label': 'swe'}]

classifier = pipeline("audio-classification", model="facebook/mms-lid-256")
classifier(audio_file)

[{'score': 0.9458122253417969, 'label': 'fao'},
 {'score': 0.04461520165205002, 'label': 'isl'},
 {'score': 0.004171509295701981, 'label': 'nno'},
 {'score': 0.0008307805983349681, 'label': 'swe'},
 {'score': 0.00035287620266899467, 'label': 'nob'}]

classifier = pipeline("audio-classification", model="facebook/mms-lid-512")
classifier(audio_file)

[{'score': 0.7496908903121948, 'label': 'fao'},
 {'score': 0.07540695369243622, 'label': 'est'},
 {'score': 0.07277772575616837, 'label': 'isl'},
 {'score': 0.03770683705806732, 'label': 'fin'},
 {'score': 0.02799229696393013, 'label': 'nno'}]

classifier = pipeline("audio-classification", model="facebook/mms-lid-1024")
classifier(audio_file)

[{'score': 0.9969402551651001, 'label': 'est'},
 {'score': 0.0010908945696428418, 'label': 'fin'},
 {'score': 0.00022527924738824368, 'label': 'lav'},
 {'score': 9.577683522365987e-05, 'label': 'nno'},
 {'score': 7.077000191202387e-05, 'label': 'hun'}]

classifier = pipeline("audio-classification", model="facebook/mms-lid-2048")
classifier(audio_file)

[{'score': 0.8932716846466064, 'label': 'sme'},
 {'score': 0.06463973969221115, 'label': 'est'},
 {'score': 0.004642760846763849, 'label': 'fin'},
 {'score': 0.0019779973663389683, 'label': 'isl'},
 {'score': 0.0008273955900222063, 'label': 'sml'}]

classifier = pipeline("audio-classification", model="facebook/mms-lid-4017")
classifier(audio_file)

[{'score': 0.41755205392837524, 'label': 'est'},
 {'score': 0.006955365184694529, 'label': 'kwi'},
 {'score': 0.006413329392671585, 'label': 'pao'},
 {'score': 0.004706303123384714, 'label': 'ceb'},
 {'score': 0.00443474343046546, 'label': 'tsz'}]