AMSTAR 2: uno strumento di valutazione critica per revisioni sistematiche che includono studi randomizzati o non randomizzati di interventi sanitari, o entrambi

Punti di sintesi

Le revisioni sistematiche degli studi sugli effetti degli interventi sanitari spesso includono studi non randomizzati
AMSTAR è uno strumento popolare per valutare criticamente le revisioni sistematiche di studi clinici randomizzati controllati
AMSTAR è stata ulteriormente sviluppata per consentire la valutazione di revisioni sistematiche di studi randomizzati e non randomizzati di interventi sanitari
Lo strumento rivisto (AMSTAR 2) conserva 10 dei domini originali, ha 16 voci in totale (rispetto alle 11 dell’originale), ha categorie di risposta più semplici rispetto all’AMSTAR originale, include una guida utente più completa e ha una valutazione complessiva basata sui punti deboli nei domini critici
AMSTAR 2 non è destinato a generare un punteggio complessivo
Con l’intento di basare un maggior numero di decisioni su prove osservazionali del mondo reale, AMSTAR 2 dovrebbe contribuire all’identificazione di revisioni sistematiche di alta qualità

Con il rapido aumento dell’editoria biomedica, tenere il passo con la ricerca primaria è diventato quasi impossibile per gli operatori sanitari e i responsabili politici.1 Di conseguenza, i decisori sanitari si affidano alle revisioni sistematiche come uno degli strumenti chiave per ottenere un’assistenza sanitaria basata sull’evidenza.2 Le revisioni sistematiche offrono l’opportunità di basare le decisioni su sintesi accurate, succinte, credibili e complete delle migliori evidenze disponibili su un argomento.2

Accettare in modo acritico i risultati di un’unica revisione sistematica comporta dei rischi. Uno di noi (DM) ha guidato gli sforzi per migliorare gli standard di reporting delle revisioni sistematiche, che hanno portato alla dichiarazione PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses).3 La guida per la segnalazione di revisioni sistematiche di studi osservazionali (non randomizzati) è MOOSE (Meta-analisi degli studi osservazionali in epidemiologia).4 La qualità della segnalazione di una revisione sistematica può, tuttavia, riflettere più accuratamente la capacità degli autori di scrivere in modo comprensibile piuttosto che il modo in cui hanno condotto la loro revisione. Ciò sottolinea la necessità di linee guida che valutino il modo in cui le revisioni sono pianificate e condotte.5
6

Il Cochrane Collaboration Handbook fornisce una guida completa per gli autori di recensioni, ma non fornisce uno strumento di valutazione critica concisa per le recensioni completate.5 Diversi strumenti sono stati concepiti per valutare i singoli studi che vengono inclusi nelle revisioni sistematiche o le modalità di esecuzione di alcune fasi (ad esempio, meta-analisi, test per la verifica di un pregiudizio di pubblicazione).789101112131415Ma relativamente pochi strumenti valutano tutte le fasi importanti nella conduzione di una revisione.16
17
18
19
20
21

AMSTAR (A MeaSuSurement Tool to Assess systematic Reviews), pubblicato nel 2007, è uno degli strumenti più utilizzati.222324AMSTAR è stato concepito da noi e dai nostri colleghi come uno strumento pratico di valutazione critica ad uso degli operatori sanitari e dei responsabili politici che non hanno necessariamente una formazione avanzata in epidemiologia, per consentire loro di effettuare valutazioni rapide e riproducibili della qualità della conduzione di revisioni sistematiche di studi controllati randomizzati di interventi. Dalla pubblicazione sono state pubblicate diverse critiche allo strumento.2526272828293031Queste critiche e i feedback ricevuti durante i workshop e gli sviluppi nella scienza delle revisioni sistematiche hanno evidenziato la necessità di rivedere e aggiornare lo strumento AMSTAR originale.

Inclusione di studi non randomizzati nelle revisioni sistematiche

Quasi la metà delle revisioni sistematiche pubblicate include ora studi non randomizzati sugli effetti dell’intervento.4323334Ci sono molte preoccupazioni circa la conduzione e la segnalazione di revisioni sistematiche di studi non randomizzati.323536Per riassumere, gli studi non randomizzati di interventi sanitari (un importante punto focale di questa revisione dell’AMSTAR) sono soggetti a una serie di pregiudizi che non sono presenti o sono meno evidenti negli studi randomizzati controllati, richiedendo così un diverso rischio di valutazioni di pregiudizi. Gli studi osservazionali sono sempre più spesso condotti all’interno di grandi database di popolazione, a volte con centinaia di migliaia o addirittura milioni di destinatari di interventi sanitari. Questi generano stime precise degli effetti dell’intervento, che possono essere imprecise a causa dei pregiudizi residui. Se queste stime sono combinate con quelle degli studi controllati randomizzati (generalmente più piccoli), le metastimazioni saranno ponderate verso le stime dello studio osservazionale. Lo strumento AMSTAR originale non includeva una valutazione del rischio di bias negli studi non randomizzati inclusi in una revisione, il che è una questione chiave data la diversità dei disegni che tali studi possono utilizzare e i bias che possono influire su di essi.

Sviluppo di AMSTAR 2

Lo sviluppo e la convalida dello strumento originale AMSTAR (pubblicato nel 2007) è stato descritto in dettaglio altrove.222324In breve, l’elenco originale delle voci è stato creato dai risultati di una revisione dello scoping degli strumenti di rating allora disponibili. Questa revisione ha identificato molti elementi di valutazione sovrapponibili, principalmente da due relazioni ampiamente citate.1617Gli elenchi delle voci di questi rapporti sono stati combinati e ridotti mediante l’analisi dei fattori. Dopo i test pilota, le voci sono state riformulate in base alle necessità e sono state valutate l’affidabilità e l’utilizzabilità dello strumento. Una versione modificata è stata convalidata esternamente e ha funzionato bene rispetto ai giudizi globali di un gruppo di esperti di contenuti.23 Le pubblicazioni che descrivono lo strumento originale AMSTAR sono state ampiamente citate e lo strumento è stato utilizzato e ampiamente criticato.22
23
24
25
26
27
28
29
30
31

Abbiamo convocato un gruppo di esperti, composto da autori dello strumento originale, membri con esperienza nella conduzione di studi non randomizzati, nello sviluppo di strumenti di valutazione, nella biostatistica e nel disegno di studi. Il gruppo di esperti si è riunito per un giorno a Ottawa, in Canada, e ai membri sono stati presentati i risultati delle revisioni aggiornate della letteratura sugli strumenti di valutazione critica pertinenti, i risultati delle indagini degli utenti AMSTAR, le esperienze dei partecipanti ai workshop AMSTAR ai Colloqui Cochrane del 2015 e del 2016, i feedback dal sito web AMSTAR(www.amstar.ca) e le critiche pubblicate sullo strumento originale.161718191920212223242526La prospettiva adottata dal gruppo di esperti è stata quella di aumentare il valore dell’AMSTAR come un ampio strumento di valutazione critica progettato principalmente per la revisione sistematica degli studi sugli interventi sanitari. Il gruppo di esperti ha ritenuto che le revisioni dovessero affrontare tutti gli aspetti della conduzione di una revisione sistematica e le sfide poste dall’inclusione di studi non randomizzati. Hanno anche pensato che lo strumento revisionato dovrebbe funzionare come un aiuto didattico e come una lista di controllo concisa per coloro che conducono revisioni. Le revisioni non erano intese a trattare i requisiti speciali delle revisioni dei test diagnostici, delle meta-analisi dei dati dei singoli pazienti o delle meta-analisi di rete, delle revisioni di scoping o delle revisioni realistiche.37
38
39
40
41

Abbiamo utilizzato una tecnica di gruppo nominale per proporre e poi dare priorità a modifiche specifiche dello strumento e per concordare la bozza di formulazione delle voci. Sulla base della loro esperienza dello strumento e delle presentazioni fatte durante l’incontro, ai partecipanti è stato chiesto di registrare le loro idee in modo indipendente e privato. Le idee sono state poi enunciate in un formato round-robin. Un’idea è stata raccolta da tutti, a turno, e presentata al gruppo dal facilitatore. Questo processo è continuato fino a quando tutte le idee sono state elencate. I singoli individui hanno poi registrato privatamente i loro giudizi e le loro classifiche. Questi sono stati aggregati statisticamente per ricavare i giudizi del gruppo. Sono state concordate le seguenti modifiche (che non sono elencate in ordine di priorità, in quanto tutte sono state considerate abbastanza importanti da richiedere modifiche allo strumento):

Semplificare le categorie di risposta
Allineare la definizione delle domande di ricerca con il quadro PICO (popolazione, intervento, gruppo di controllo, risultato)
Cercare una giustificazione per la selezione da parte degli autori della revisione dei diversi progetti di studio (randomizzati e non randomizzati) da includere nelle revisioni sistematiche
Cerca maggiori dettagli sui motivi dell’esclusione degli studi dalla revisione
Determinare se gli autori della revisione hanno effettuato una valutazione sufficientemente dettagliata del rischio di distorsione per gli studi inclusi (randomizzati o non randomizzati)
Determinare se il rischio di distorsione con gli studi inclusi è stato considerato adeguatamente durante il pooling statistico dei risultati (se è stato effettuato)
Determinare se il rischio di pregiudizio con gli studi inclusi è stato preso in considerazione in modo adeguato nell’interpretazione e nella discussione dei risultati della revisione.

Per ciascuna delle bozze è stata formulata una descrizione. Un piccolo sottogruppo ha perfezionato la formulazione delle voci e ha assemblato la bozza dello strumento per la verifica. I primi test pilota sono stati effettuati dai membri del gruppo. Le bozze sono state presentate in occasione dei workshop tenutisi ai Colloqui Cochrane nel 2015 e nel 2016, dove il feedback ha diretto ulteriori modifiche e rielaborazioni dello strumento. La versione dello strumento qui presentata è stata sottoposta a test di affidabilità e usabilità tra le classifiche.

Confronto con lo strumento originale

La figura supplementare fornisce i dettagli del nuovo strumento (AMSTAR 2). Sono stati mantenuti dieci domini dello strumento originale, con modifiche alla formulazione delle voci in base al feedback sullo strumento originale e all’esperienza delle bozze di prova del nuovo strumento. Due domini sono stati trattati in modo più dettagliato nell’AMSTAR 2 rispetto allo strumento originale: la selezione di studi duplicati e l’estrazione dei dati hanno ora i loro elementi (sono stati combinati nello strumento originale). La possibile influenza delle fonti di finanziamento è ora considerata separatamente per i singoli studi inclusi nella revisione e per la revisione stessa. In precedenza erano combinate in un’unica voce. Abbiamo aggiunto considerazioni più dettagliate e separate sul rischio di distorsione per gli studi randomizzati e non randomizzati. Entrambe le sottovoci si basano sul contenuto degli strumenti Cochrane di rischio di polarizzazione per gli studi randomizzati e non randomizzati (ROBINS-I).4243Un dominio è stato eliminato: la letteratura grigia, che prima era una voce separata, è ora trattata nella voce relativa alla ricerca di letteratura.

In totale, sono stati aggiunti quattro domini. Due di questi provengono direttamente dallo strumento ROBINS-I, ovvero l’elaborazione del PICO e il modo in cui il rischio di distorsione è stato gestito durante la sintesi delle prove.43 Uno degli altri nuovi domini – la discussione delle possibili cause e del significato dell’eterogeneità – è un’elaborazione dei contenuti dello strumento originale AMSTAR. Un altro nuovo dominio – la giustificazione della selezione dei progetti di studio – faceva parte dell’adattamento di AMSTAR per trattare i progetti non randomizzati.

Le domande specifiche del dominio in AMSTAR 2 sono inquadrate in modo che una risposta “Sì” denoti un risultato positivo. Abbiamo eliminato le opzioni “non applicabile” e “non può rispondere” nello strumento originale dell’AMSTAR perché riteniamo che tutti i domini siano rilevanti per le revisioni sistematiche contemporanee degli interventi sanitari. Se non vengono fornite informazioni per valutare una voce, gli autori della revisione non dovrebbero avere il beneficio del dubbio e la voce dovrebbe essere valutata come un “No”. Abbiamo fornito una risposta “parziale sì” in alcuni casi in cui abbiamo ritenuto utile identificare una parziale aderenza allo standard.

Motivazione per la selezione degli articoli

Qui riassumiamo il nostro pensiero dietro le voci dell’AMSTAR 2, che sono numerate come nello strumento (vedi figura supplementare). L’appendice supplementare 1 fornisce una guida all’uso più completa.

1. 1. Le domande di ricerca e i criteri di inclusione per la revisione hanno incluso i componenti di PICO?

È prassi comune utilizzare la descrizione PICO (popolazione, intervento, gruppo di controllo ed esito) come quadro di riferimento comodo e facilmente memorizzabile per una domanda di studio. A volte si dovrebbe aggiungere un lasso di tempo se questo è fondamentale per determinare la probabilità che uno studio acquisisca risultati clinici rilevanti (ad esempio, un effetto dell’intervento è previsto solo dopo diversi anni).

2. 2. Il rapporto della revisione conteneva una dichiarazione esplicita che i metodi di revisione erano stati stabiliti prima della conduzione della revisione e che giustificava eventuali deviazioni significativedal protocollo?

Le revisioni sistematiche sono una forma di ricerca osservazionale e i metodi di revisione devono essere concordati prima dell’inizio della revisione. L’aderenza a un protocollo ben sviluppato riduce il rischio di distorsioni nella revisione. Gli autori dovrebbero dimostrare di aver lavorato con un protocollo scritto con verifica indipendente.

3. 3. Gli autori della revisione hanno spiegato la loro scelta dei progetti di studio da includere nella revisione?

Per alcune domande, ad esempio gli effetti dei cambiamenti di politica, o per ragioni etiche, gli studi non randomizzati possono essere gli unici studi che affrontano la questione della revisione. Con l’espansione dell’AMSTAR 2 per valutare le revisioni che includono studi controllati randomizzati o studi non randomizzati, o entrambi, è importante che gli autori giustifichino l’inclusione di diversi disegni di studio nelle revisioni sistematiche. Gli autori dovrebbero indicare che hanno seguito una strategia. Quando sia gli studi randomizzati che quelli non randomizzati affrontano la stessa domanda sugli effetti di un intervento, riteniamo che gli autori debbano considerare se una revisione limitata a studi controllati randomizzati darà un riassunto incompleto degli effetti importanti di un trattamento.

4. 4. Gli autori della revisione hanno utilizzato una strategia di ricerca completa della letteratura?

L’importanza di un’adeguata ricerca della letteratura nelle revisioni sistematiche è ben stabilita.5 Questo punto è stato riportato con modifiche minime alla formulazione dello strumento originale. Abbiamo reso più chiare le opzioni di risposta nell’AMSTAR 2 e forniamo una guida più dettagliata sul completamento dell’item, in particolare in relazione all’identificazione di studi non randomizzati (vedi appendice 1 supplementare).

5. 5. Gli autori della revisione hanno effettuato la selezione degli studi in duplice copia?

La migliore prassi richiede che due autori di revisione determinino l’idoneità degli studi per l’inclusione nelle revisioni sistematiche.5 Ciò comporta la verifica delle caratteristiche di uno studio rispetto agli elementi della domanda di ricerca. Nell’AMSTAR originale, questo elemento riguardava la determinazione sia dell’ammissibilità dello studio che dell’estrazione dei dati. Il gruppo di esperti ha ritenuto che si trattasse di processi sufficientemente distinti da meritare elementi separati nell’AMSTAR 2.

6. 6. Gli autori della revisione hanno effettuato l’estrazione dei dati in doppio?

Il gruppo di esperti ha riconosciuto che l’estrazione dei dati potrebbe essere più complessa per gli studi non randomizzati di interventi sanitari, poiché di solito comporta l’estrazione di misure degli effetti del trattamento e di altre associazioni che sono state adeguate per una potenziale confusione, piuttosto che dati grezzi di esito da gruppi trattati e di controllo. Un rapporto di studio può presentare molteplici effetti di trattamento; è quindi necessario un giudizio per selezionare quello più conforme alla domanda PICO e a minor rischio di confusione.

7. 7. Gli autori della revisione hanno fornito un elenco di studi esclusi e giustificano le esclusioni?

Nello strumento rivisto consideriamo gli studi esclusi e li abbiamo inclusi separatamente. Gli studi esclusi devono essere presi in considerazione per intero dagli autori della revisione, altrimenti c’è il rischio che rimangano invisibili e che l’impatto della loro esclusione dalla revisione sia sconosciuto.

8. 8. Gli autori della revisione hanno descritto gli studi inclusi in modo sufficientemente dettagliato?

Lo strumento rivisto richiede che gli autori della revisione forniscano dettagli sui progetti di ricerca, sulle popolazioni di studio, sugli interventi, sui comparatori e sui risultati. I dettagli dovrebbero essere sufficienti per consentire ai valutatori di esprimere un giudizio sulla misura in cui gli studi sono stati scelti in modo appropriato (in relazione al PICO) e se le popolazioni e gli interventi dello studio sono stati pertinenti alle loro domande. Queste informazioni sono necessarie per determinare la misura in cui i risultati dei diversi studi dovrebbero essere combinati, aiutare a spiegare l’eterogeneità e assistere coloro che applicano i risultati.

9. 9. Gli autori della revisione hanno utilizzato una tecnica soddisfacente per valutare il rischio di distorsione (RoB) nei singoli studi inclusi nella revisione?

Le distorsioni possono essere introdotte in diverse fasi della progettazione, della pianificazione, della conduzione e dell’analisi di uno studio. Questo punto sostituisce un punto meno dettagliato sulla “qualità scientifica”, che specifica i settori di bias per gli studi randomizzati e non randomizzati che avrebbero dovuto essere presi in considerazione dai revisori, sulla base dei relativi strumenti Cochrane.4243Nell’AMSTAR 2 chiediamo se gli autori della revisione hanno effettuato una valutazione adeguata degli sforzi compiuti a livello di studio per evitare, controllare o correggere la confusione di base, le distorsioni di selezione, le distorsioni nella misurazione delle esposizioni e degli esiti, e la segnalazione selettiva delle analisi o degli esiti, o entrambi. Il documento guida (vedi appendice 1 supplementare) e il rapporto ROBINS-I forniscono maggiori dettagli.43 Abbiamo deciso di non includere la valutazione di errori di tempo, errori di performance e errori dovuti alla mancanza di dati, anche se attualmente sono inclusi nel ROBINS-I.43 Ciò è dovuto alla natura complessa delle tecniche utilizzate per adeguarsi a queste potenziali fonti di distorsione e alla frequente mancanza di dati (negli studi primari contemporanei) per consentire la valutazione di questi elementi. La versione 2.0 dello strumento Cochrane per il rischio di bias per gli studi controllati randomizzati è ora disponibile in forma di bozza, e l’AMSTAR 2 sarà allineato a questo in futuro.44

10. 10. Gli autori della recensione hanno riferito sulle fonti di finanziamento degli studi inclusi nella recensione?

Abbiamo aggiunto una considerazione delle fonti di finanziamento alla luce dell’evidenza di diverse fonti che i risultati degli studi finanziati dall’industria a volte favoriscono i prodotti sponsorizzati e che gli studi finanziati dall’industria hanno meno probabilità di essere pubblicati rispetto a quelli finanziati in modo indipendente.454647Tali influenze non possono essere individuate come difetti di progettazione o metodi (punto 9).

11. 11. Se è stata effettuata una meta-analisi, gli autori della revisione hanno utilizzato metodi appropriati per la combinazione statistica dei risultati?

Si tratta di una versione modificata di un elemento dello strumento originale e viene giudicata separatamente per gli studi randomizzati e non randomizzati. Gli autori della revisione avrebbero dovuto dichiarare esplicitamente nel protocollo di revisione i principi sui quali hanno basato la loro decisione di eseguire la meta-analisi dei dati degli studi inclusi. Ciò include la misura in cui gli studi sono compatibili (in termini di pazienti, controlli e interventi) e il valore di un singolo effetto combinato (ad esempio, da diversi studi compatibili ma poco potenti). Laddove i revisori ritengano opportuno condurre una meta-analisi, l’inclusione di studi non randomizzati aumenta la complessità delle analisi e può aumentare l’eterogeneità (vedi appendice 1 supplementare).

12. 12. Se è stata effettuata una meta-analisi, gli autori della revisione hanno valutato il potenziale impatto della RoB nei singoli studi sui risultati della meta-analisi o della sintesi di altre prove?

Questo è un nuovo punto che richiede ai revisori di esaminare come variano i risultati con l’inclusione o l’esclusione degli studi primari giudicati ad alto rischio di distorsione. Nei casi in cui gli autori dei revisori hanno scelto di includere solo studi randomizzati controllati di alta qualità, si può discutere poco dell’impatto potenziale del bias sui risultati. Ma nei casi in cui hanno incluso studi randomizzati controllati di qualità variabile o studi non randomizzati, dovrebbero valutare l’impatto del rischio di distorsione a livello di studio sui risultati della revisione.48

13. 13. Gli autori della revisione hanno tenuto conto della RoB negli studi primari quando hanno interpretato o discusso i risultati della revisione?

Si tratta di una modifica di un elemento dello strumento originale. Con una maggiore enfasi sulla valutazione del rischio di distorsione, l’aspettativa è che i revisori facciano esplicito riferimento ai potenziali impatti del rischio di distorsione quando interpretano e discutono i risultati della loro revisione e quando traggono conclusioni o formulano raccomandazioni.

14. 14. Gli autori della revisione hanno fornito una spiegazione soddisfacente e la discussione di eventuali eterogeneità osservate nei risultati della revisione?

Questo punto è riportato con una formulazione modificata rispetto allo strumento originale. È importante che i revisori esaminino le possibili cause di eterogeneità, comprese le variazioni degli elementi inclusi nel quadro PICO (cfr. punto 1) e quelle derivanti da considerazioni progettuali e metodologiche (cfr. punto 9). Con l’inclusione di studi non randomizzati, le variazioni nella progettazione e nell’analisi possono contribuire all’eterogeneità.

15. 15. Se hanno effettuato una sintesi quantitativa, gli autori della revisione hanno svolto un’adeguata indagine sulle distorsioni della pubblicazione (piccole distorsioni dello studio) e ne hanno discusso il probabile impatto sui risultati della revisione?

Questo punto è riportato dallo strumento originale ma con una formulazione modificata. Il bias di pubblicazione è un problema importante, ma può essere difficile da risolvere completamente per gli autori. Di solito si usano test statistici (ne sono disponibili diversi) o visualizzazioni grafiche e se i risultati sono positivi indicano la presenza di un pregiudizio di pubblicazione. I risultati negativi dei test non sono una garanzia dell’assenza di distorsioni di pubblicazione in quanto sono insensibili. Sono necessari almeno 10 studi per mostrare l’asimmetria del grafico ad imbuto.5 La tendenza di fondo a pubblicare selettivamente piccoli studi positivi può essere aggravata dagli effetti di una minore qualità metodologica dei piccoli studi, di una maggiore tendenza a riportare selettivamente i risultati e di una maggiore eterogeneità clinica quando condotti in sottogruppi di pazienti.49

16. 16. Gli autori della recensione hanno riferito di potenziali fonti di conflitto di interessi, compresi i finanziamenti ricevuti per la conduzione della recensione?

Questa voce è riportata con una formulazione modificata rispetto allo strumento originale ed è ora separata dalla considerazione del finanziamento degli studi primari inclusi nella revisione (voce 10). Come per gli studi primari, gli autori della revisione devono riportare le loro fonti di finanziamento.50
51

Identificazione dei domini critici

Tutte le fasi della conduzione di una revisione sistematica e di una meta-analisi sono importanti, ma riteniamo che sette settori possano influenzare criticamente la validità di una revisione e le sue conclusioni (riquadro 1). Due di questi riguardano il rischio di distorsioni, se è stato valutato adeguatamente e come può influenzare i risultati di una revisione. L’importanza che diamo al rischio di distorsione è dovuta al fatto che l’AMSTAR 2 sarà utilizzato per valutare molte revisioni sistematiche che includono studi non randomizzati.

Riconosciamo che gli elementi elencati nel riquadro 1 non saranno sempre considerati critici; ad esempio, il rischio di elementi correlati al bias può essere considerato meno importante quando una revisione è limitata a studi randomizzati controllati di alta qualità. Altre circostanze in cui la natura critica degli item può essere messa in discussione sono quando un team di revisione utilizza la meta-analisi per riassumere una base di letteratura nota (ad esempio, i risultati di uno o più gruppi di collaborazione di studi clinici consolidati). In questa circostanza l’adeguatezza della ricerca in letteratura (item 4), l’elenco degli studi esclusi (item 7) e la possibilità di distorsioni della pubblicazione (item 15) non possono essere considerati critici. Se non è stata effettuata una meta-analisi, non si applica la voce relativa all’adeguatezza dei metodi meta-analitici (voce 11). Tuttavia, è importante in questa circostanza che i valutatori siano attenti al possibile impatto del rischio di distorsioni quando gli autori delle revisioni selezionano i singoli studi da evidenziare in un riassunto narrativo.

I difetti nelle voci che abbiamo identificato come critiche potrebbero non essere fatali se ulteriori informazioni (ad esempio, direttamente dagli autori della recensione) indicano che l’opzione di risposta originale era sbagliata. Ciò può fornire rassicurazioni sui risultati della revisione o consentire una modifica della revisione attraverso ulteriori analisi. Sottolineiamo che il nostro annuncio è un suggerimento e i valutatori possono aggiungere o sostituire altri settori critici. Ad esempio, la mancata inclusione di studi non randomizzati (punto 3) in una revisione degli esiti negativi del trattamento può essere un difetto critico, così come l’incapacità di spiegare le grandi variazioni degli effetti del trattamento in un insieme di studi (punto 14).

Box 1 AMSTAR 2 settori critici

Protocollo registrato prima dell’inizio della revisione (punto 2)
Adeguatezza della ricerca bibliografica (punto 4)
Giustificazione per l’esclusione di studi individuali (punto 7)
Rischio di distorsioni derivanti da singoli studi inclusi nella revisione (punto 9)
Adeguatezza dei metodi meta-analitici (voce 11)
Considerazione del rischio di parzialità nell’interpretazione dei risultati della revisione (voce 13)
Valutazione della presenza e del probabile impatto della distorsione della pubblicazione (voce 15)

Applicazione di AMSTAR 2 alle revisioni sistematiche

Se una o più revisioni sistematiche saranno alla base di importanti pratiche e decisioni politiche, raccomandiamo che il team di valutazione si accordi su come applicare gli articoli dell’AMSTAR 2. Ciò include il contesto della pratica o della politica e le questioni che dovrebbero essere affrontate, sulla base delle componenti PICO pertinenti. Ad esempio, le revisioni sistematiche disponibili possono aver incluso studi con diversi comparatori o tempi di follow-up diversi, e la loro rilevanza per le questioni rilevanti per la politica deve essere stabilita. Si dovrebbero anche concordare le probabili fonti di distorsione. Ad esempio, negli studi osservazionali degli effetti dell’intervento, la confusione per indicazione (o gravità della malattia) può essere problematica quando gli interventi sono riservati a determinati sottogruppi di pazienti.52 È buona pratica reclutare nuovi utenti di una tecnologia o di un farmaco negli studi per evitare pregiudizi sulla prevalenza.53 Se l’inizio di un intervento tende ad essere ritardato, la scelta del comparatore può introdurre una distorsione temporale immortale.54 Gli errori di misurazione possono classificare erroneamente l’esposizione e i risultati e possono essere sbilanciati tra i gruppi di confronto. La segnalazione selettiva tra più analisi ed esiti può dare una misura imprecisa degli effetti dell’intervento.

L’appendice supplementare 1 fornisce una guida alle sezioni dell’AMSTAR 2. Alcuni dei giudizi (in particolare se gli autori delle revisioni hanno valutato adeguatamente il rischio di distorsioni con singoli studi non randomizzati) sono complessi, e potrebbero essere necessari consigli sia sulla metodologia che sul contenuto. La conoscenza dei contenuti è a volte necessaria per determinare se gli autori della revisione hanno effettuato una valutazione adeguata degli elementi PICO pertinenti (punto 1) e per identificare i potenziali fattori di confusione.

Raccomandiamo vivamente di non combinare le valutazioni dei singoli elementi per creare un punteggio complessivo.5556Piuttosto, gli utenti dovrebbero considerare il potenziale impatto di una valutazione inadeguata per ogni elemento.

Nel riquadro 2 proponiamo uno schema per l’interpretazione dei punti deboli rilevati nelle voci critiche e non critiche. Si tratta di un sistema di consulenza e i valutatori dovrebbero decidere quali sono le voci più importanti per le revisioni in esame.

Box 2 Valutazione della fiducia complessiva nei risultati della revisione

Alto
Nessuna o nessuna debolezza non critica: la revisione sistematica fornisce una sintesi accurata e completa dei risultati degli studi disponibili che affrontano la questione dell’interesse
Moderato
Più di una debolezza non critica*: la revisione sistematica ha più di una debolezza ma nessun difetto critico. Può fornire una sintesi accurata dei risultati degli studi disponibili che sono stati inclusi nella revisione
Basso
Un difetto critico con o senza punti deboli non critici: la revisione ha un difetto critico e potrebbe non fornire una sintesi accurata e completa degli studi disponibili che affrontano la questione di interesse
Criticamente basso
Più di un difetto critico con o senza punti deboli non critici: la revisione ha più di un difetto critico enon dovrebbe essere affidabile per fornire un riepilogo accurato e completo degli studi disponibili

Affidabilità inter-rater di AMSTAR 2

Abbiamo misurato l’accordo inter-rater con tre coppie di raters e tre serie di revisioni sistematiche (vedi appendice 2 supplementare). La prima coppia di raters è stata coinvolta nello sviluppo di AMSTAR 2 (coautori MT e CH). Essi hanno valutato individualmente 20 revisioni sistematiche derivate da una ricerca rapida (condotta nel 2015 sui termini “revisione sistematica” e “meta-analisi” nel titolo) utilizzando Google Scholar. Delle prime 200 abbiamo selezionato 20 revisioni sistematiche di qualsiasi intervento sanitario. Le altre due coppie di revisori sono state esperte nella valutazione delle revisioni sistematiche e non sono state coinvolte nello sviluppo dell’AMSTAR o dell’AMSTAR 2. Hanno applicato l’AMSTAR 2 durante il loro lavoro di routine, eseguendo valutazioni di revisioni sistematiche su due argomenti: interventi per ridurre gli errori di medicazione (14 revisioni) e terapie non farmacologiche per il morbo di Parkinson (20 revisioni) (vedi riferimenti nell’appendice 2 supplementare). In entrambi i casi le revisioni sistematiche sono state identificate attraverso ricerche bibliografiche complete (dettagli disponibili su richiesta). Tutti i valutatori hanno avuto accesso al manuale d’uso (vedi appendice 1 supplementare), hanno applicato lo strumento individualmente e non hanno cercato di raggiungere un consenso. In totale, sei classificatori hanno applicato lo strumento a 54 revisioni sistematiche, di cui 20 includevano solo studi controllati randomizzati, 18 includevano solo studi non randomizzati di interventi e 16 includevano una miscela di entrambi i progetti.

L’appendice supplementare 2 fornisce una sintesi dei punteggi κ per l’accordo tra le tre coppie di classificatori nelle tre serie di revisioni. I valori variavano sostanzialmente tra le voci e tra le coppie di classificatori. La maggior parte dei valori erano in un intervallo accettabile, con 46 dei 50 punteggi κ che rientrano nell’intervallo di accordo moderato o migliore e 39 che mostrano un buon accordo o migliore accordo. Non ci sono state grandi differenze tra i valutatori, e coloro che erano stati coinvolti nello sviluppo dell’AMSTAR 2 non hanno avuto livelli di accordo più elevati rispetto al valutatore che non è stato coinvolto. I punti 9, 12 e 13 riguardano la misurazione del rischio di distorsione e come questo viene gestito durante la discussione della meta-analisi e l’interpretazione dei risultati. Gli intervalli dei punteggi κ per queste voci erano simili a quelli visti con altre voci dello strumento (vedi appendice 2 supplementare). Per gli item 9 e 11 i valori di κ per il rischio di giudizi di polarizzazione per gli studi randomizzati controllati erano simili a quelli per gli studi non randomizzati.

Usabilità di AMSTAR 2

I tempi di completamento delle 20 recensioni utilizzate dai recensori 1 e 2 sono stati di 15-32 minuti. Queste stime non includono il tempo necessario per leggere le recensioni. Questo è quasi il doppio del tempo impiegato per completare lo strumento AMSTAR originale (intervallo 10-15 minuti), quando è stato applicato a revisioni sistematiche limitate a studi controllati randomizzati.57 Sono stati inclusi i commenti dei revisori: che la rimozione delle opzioni di risposta “non può rispondere” e “non applicabile” nello strumento originale li costringeva a formulare giudizi; che ci vuole più tempo per valutare le revisioni di studi non randomizzati e misti, ma questo richiede al revisore di affrontare importanti questioni metodologiche; che era comune per gli autori delle revisioni menzionare la presenza o l’assenza di pregiudizi di pubblicazione, ma non fornire alcuna prova; e che gli autori delle revisioni avrebbero rivelato i loro potenziali interessi concorrenti, ma non come li hanno gestiti.

Discussione

AMSTAR 2 è una revisione importante dello strumento originale AMSTAR, che è stato progettato per valutare le revisioni sistematiche che includevano studi controllati randomizzati.222324Le principali modifiche includono categorie di risposta semplificate; una considerazione più dettagliata del rischio di distorsione con gli studi inclusi, e come questo è stato gestito dagli autori delle revisioni nel riassumere e interpretare i risultati delle loro revisioni; un migliore allineamento con il quadro PICO per le domande di ricerca; una giustificazione più dettagliata della selezione dei progetti di studio da includere in una revisione; e maggiori informazioni sugli studi che sono stati esclusi dalle revisioni. Inoltre, si raccomanda di definire i settori critici prima di iniziare una valutazione di una revisione sistematica. L’identificazione dei punti deboli in questi ambiti dovrebbe minare la fiducia nei risultati di una revisione sistematica.

Sottolineiamo che le risposte alle voci dell’AMSTAR 2 non dovrebbero essere utilizzate per ottenere un punteggio complessivo.5556Lo strumento originale dell’AMSTAR è stato spesso utilizzato a questo scopo e ciò è stato facilitato dal sito web(www.amstar.ca). Accettiamo che un punteggio complessivo possa mascherare le debolezze critiche che dovrebbero diminuire la fiducia nei risultati di una revisione sistematica e raccomandiamo agli utenti di adottare il processo di valutazione basato sull’identificazione dei domini critici (vedi riquadro 2), o qualche variazione basata su questi principi.56

Prevediamo che AMTAR 2, come il suo predecessore, possa avere un ruolo come comodo aiuto didattico e come breve lista di controllo per coloro che conducono revisioni sistematiche. Tuttavia, sottolineiamo che lo strumento non spiega in dettaglio la logica e le modalità di conduzione delle revisioni sistematiche, e chi cerca una consulenza completa dovrebbe consultare il Manuale Cochrane.5

La considerazione del rischio di distorsioni negli studi individuali è altrettanto importante per gli studi randomizzati e non randomizzati degli interventi sanitari, ma in genere è meglio compresa con i primi. I grandi studi non randomizzati, spesso condotti in grandi database amministrativi, sono sempre più utilizzati per valutare l’impatto reale di una vasta gamma di tecnologie e pratiche sanitarie. Sebbene tali studi utilizzino spesso metodi sofisticati, la confusione residua o la mancata gestione di altre fonti di distorsione può portare a stime imprecise degli effetti. L’inclusione di grandi studi osservazionali nelle meta-analisi può generare stime precise ma parziali degli effetti dell’intervento.32

Le voci dell’AMSTAR 2 che trattano il rischio di distorsione identificano i settori specificati nella Cochrane risk of bias instruments for randomised and non-randomised studies.4243Questi rappresentano un consenso, in ogni caso sviluppato con il contributo di oltre 30 esperti di metodologia. Tuttavia, l’AMSTAR 2 non specifica attualmente quale rischio di strumenti di revisione degli strumenti di polarizzazione gli autori avrebbero dovuto utilizzare per valutare gli studi non randomizzati inclusi in una revisione sistematica. Lo strumento ROBINS-I, che è lo strumento più completo per gli studi non randomizzati che valutano gli effetti degli interventi sanitari, è stato rilasciato nel 2016 ed è irrealistico aspettarsi che gli autori delle revisioni iniziate prima del suo rilascio lo abbiano utilizzato.43 Attualmente, AMSTAR 2 lascia agli autori delle recensioni e a coloro che valutano la recensione il compito di accertarsi che lo strumento del rischio di bias utilizzato dagli autori delle recensioni abbia una capacità discriminatoria sufficiente per il rischio specifico dei domini di bias. Una revisione di Sanderson e colleghi ha identificato 86 strumenti per valutare la qualità degli studi osservazionali, senza una chiara preferenza tra di essi.58 Gli autori hanno sottolineato la necessità di concordare elementi critici per valutare la suscettibilità al bias nell’epidemiologia osservazionale. In parte questa revisione ha portato allo sviluppo di ROBINS-I.43 Gli strumenti di valutazione popolare per studi individuali, come la scala di Newcastle Ottawa e la lista di controllo della Scottish Intercollegiate Guidelines Network (SIGN), potrebbero non concentrarsi solo sulla validità.5960La Scala di Newcastle Ottawa sembra mancare di sensibilità e talvolta viene utilizzata per generare un punteggio complessivo, cosa che non è raccomandata perché può mascherare le debolezze critiche in una revisione.56
61

AMSTAR 2, come strumento di valutazione critica per le revisioni sistematiche, si unisce a diversi strumenti pubblicati progettati a questo scopo.3416171919202562Due esempi di rilievo riguardano le linee guida per la segnalazione delle revisioni sistematiche, piuttosto che la loro condotta.34 Due strumenti molto citati sono stati la base per lo sviluppo dello strumento originale dell’AMSTAR.161722Due strumenti pubblicati sono derivati diretti dell’AMSTAR originale.1925Un’altra pubblicazione comprende una lista di controllo utilizzata per valutare le revisioni sistematiche che vengono incluse in una revisione generale.20 La sovrapposizione tra il contenuto di questa lista di controllo e l’AMSTAR originale è considerevole.22

AMSTAR 2 fornisce un’ampia valutazione della qualità, compresi i difetti che possono essere emersi da una cattiva condotta della revisione (con un impatto incerto sui risultati). A questo proposito si differenzia da un altro strumento, il Risk Of Bias In Systematic reviews (ROBIS).62 ROBIS è uno strumento sofisticato in tre fasi che si concentra specificamente sul rischio di distorsioni introdotte dalla conduzione della revisione. Copre la maggior parte dei tipi di domande di ricerca, tra cui la diagnosi, la prognosi e l’eziologia. Al contrario, l’AMSTAR 2 è destinato ad essere utilizzato per la revisione degli interventi sanitari. Inevitabilmente vi è una sovrapposizione negli elementi considerati da ROBIS e AMSTAR 2; in effetti, due ricercatori (BCR, BJS) sono stati coinvolti nello sviluppo di entrambi.

Nello sviluppo dell’AMSTAR 2 abbiamo cercato di mantenere il suo approccio familiare e popolare, basato su una lista di controllo graduale, e abbiamo aumentato questo approccio con l’aggiunta e la modifica di elementi. AMSTAR 2 sarà familiare agli utenti dello strumento originale, anche se più impegnativo da usare per motivi discussi in precedenza. Poiché l’AMSTAR 2 è strutturato intorno ai passaggi chiave sequenziali nella conduzione di una revisione sistematica, può essere usato come un breve aiuto didattico o come lista di controllo da parte di coloro che conducono revisioni sistematiche.

A differenza dello strumento originale, AMSTAR 2 identifica i punti deboli critici (vedi riquadro 1) che dovrebbero ridurre la fiducia nei risultati di una revisione, e chiede agli utenti di specificare in anticipo come questa lista varierà per l’argomento della revisione. Comprendiamo che ci sarà un dibattito sull’appartenenza a questa lista e proponiamo che gli utenti possano desiderare di prespecificare un diverso insieme di elementi critici per una specifica domanda o impostazione di ricerca PICO.

Non abbiamo effettuato un’ampia convalida dello strumento AMSTAR 2 rivisto. Nel suo sviluppo, 10 domini sono stati mantenuti dallo strumento originale convalidato, anche se con alcune modifiche di formulazione basate sul feedback e sulla vasta esperienza di utilizzo. A due domini è stata data una copertura più dettagliata: la selezione di studi duplicati e l’estrazione dei dati hanno ora i loro propri elementi (sono stati combinati nello strumento originale); abbiamo aggiunto considerazioni più dettagliate e separate sul rischio di distorsioni per gli studi randomizzati e non randomizzati. Le sottovoci sono state derivate da strumenti Cochrane ampiamente utilizzati. Un dominio è stato eliminato; la considerazione della letteratura grigia, in precedenza una voce separata, è ora trattata nella voce relativa alla ricerca della letteratura. In totale, sono stati aggiunti quattro domini. Due di questi provengono direttamente dallo strumento ROBINS-I, ovvero l’elaborazione del PICO nella revisione e il modo in cui il rischio di distorsione è stato gestito durante la sintesi delle prove.43 Uno degli altri nuovi domini, la discussione delle possibili cause e l’importanza dell’eterogeneità, è l’elaborazione dei contenuti nello strumento originale AMSTAR.22 Il dominio finale, la giustificazione della selezione dei progetti di studio, è giustificato dall’adattamento dell’AMSTAR per trattare i progetti non randomizzati. Non riteniamo che ciò necessiti di una convalida perché riteniamo che sia ovvio che gli autori di revisioni sistematiche debbano giustificare il motivo per cui hanno incluso progetti di studio che sono più suscettibili di pregiudizi.

I livelli di accordo raggiunti dalle tre coppie di classificatori variano da un elemento all’altro, ma sono stati da moderati a sostanziali per la maggior parte degli elementi. In particolare, l’accordo tra due classificatori coinvolti nello sviluppo di AMSTAR 2 non era superiore a quello raggiunto da classificatori esperti che non erano stati coinvolti nel suo sviluppo. Non ci aspettavamo un accordo perfetto, e le differenze tra i valutatori riflettono la natura esigente di alcuni giudizi a livello di item e dovrebbero indurre a discutere in gruppo le loro cause e la loro importanza e, se necessario, a consultare esperti in materia e metodi.

Nello sviluppo di AMSTAR 2 ci siamo basati molto sul consenso del gruppo di esperti, ma abbiamo anche ricevuto un ampio feedback dagli utenti dello strumento originale sotto forma di comunicazioni dirette, commenti sul sito web e valutazioni fatte durante i workshop di insegnamento ai Colloqui Cochrane. Nelle fasi successive dello sviluppo di AMSTAR 2 abbiamo avuto accesso e discusso le critiche recentemente pubblicate su AMSTAR.25
26
27
28
29
30
31

La nostra esperienza nel rilascio e nell’uso dello strumento originale AMSTAR ci insegna che è necessario esprimere un giudizio e che gli utenti possono talvolta decidere di apportare modifiche allo strumento.252630Incoraggiamo i ricercatori a fornire un feedback e, se adattano lo strumento a particolari impostazioni, a riferire la loro esperienza all’indirizzo www.amstar.ca.

References

Bastian H, Glasziou P, Chalmers I. Seventy-five trials and eleven systematic reviews a day: how will we ever keep up?. PLoS Med. 2010; 7:e1000326. DOI | PubMed
Mulrow CD. Rationale for systematic reviews. BMJ. 1994; 309:597-9. DOI | PubMed
Moher D. Alessandro Liberati, Tetzlaff J, Altman DG, and the PRISMA Group. Preferred Reporting Items for (SR) and Meta-Analyses: The PRISMA Statement. Ann Intern Med. 2009; 6:264-9. DOI | PubMed
Stroup DF, Berlin JA, Morton SC. Meta-analysis of observational studies in epidemiology: a proposal for reporting. Meta-analysis Of Observational Studies in Epidemiology (MOOSE) group. JAMA. 2000; 283:2008-12. DOI | PubMed
Publisher Full Text
Dechartres A, Charles P, Hopewell S, Ravaud P, Altman DG. Reviews assessing the quality or the reporting of randomized controlled trials are increasing over time but raised questions about how quality is assessed. J Clin Epidemiol. 2011; 64:136-44. PubMed
Whiting P, Rutjes AW, Reitsma JB, Bossuyt PM, Kleijnen J. The development of QUADAS: a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews. BMC Med Res Methodol. 2003; 3:25. DOI | PubMed
Wong WC, Cheung CS, Hart GJ. Development of a quality assessment tool for systematic reviews of observational studies (QATSO) of HIV prevalence in men having sex with men and associated risk behaviours. Emerg Themes Epidemiol. 2008; 5:23. DOI | PubMed
Verhagen AP, de Vet HC, de Bie RA. The Delphi list: a criteria list for quality assessment of randomized clinical trials for conducting systematic reviews developed by Delphi consensus. J Clin Epidemiol. 1998; 51:1235-41. DOI | PubMed
Downs SH, Black N. The feasibility of creating a checklist for the assessment of the methodological quality both of randomised and non-randomised studies of health care interventions. J Epidemiol Community Health. 1998; 52:377-84. DOI | PubMed
Murray J, Farrington DP, Eisner MP. Drawing conclusions about causes from systematic reviews of risk factors: The Cambridge Quality Checklists. J Exp Criminol. 2009; 5:1-23. DOI
Terwee CB, Mokkink LB, Knol DL, Ostelo RW, Bouter LM, de Vet HC. Rating the methodological quality in systematic reviews of studies on measurement properties: a scoring system for the COSMIN checklist. Qual Life Res. 2012; 21:651-7. DOI | PubMed
Bérard A, Andreu N, Tétrault J, Niyonsenga T, Myhal D. Reliability of Chalmers’ scale to assess quality in meta-analyses on pharmacological treatments for osteoporosis. Ann Epidemiol. 2000; 10:498-503. DOI | PubMed
Thompson S, Ekelund U, Jebb S. A proposed method of bias adjustment for meta-analyses of published observational studies. Int J Epidemiol. 2011; 40:765-77. DOI | PubMed
Sacks HS, Berrier J, Reitman D, Ancona-Berk VA, Chalmers TC. Meta-analyses of randomized controlled trials. N Engl J Med. 1987; 316:450-5. PubMed
Oxman AD, Guyatt GH. Validation of an index of the quality of review articles. J Clin Epidemiol. 1991; 44:1271-8. DOI | PubMed
Oxman AD, Cook DJ, Guyatt GH, Evidence-Based Medicine Working Group. Users’ guides to the medical literature. VI. How to use an overview. JAMA. 1994; 272:1367-71. DOI | PubMed
Publisher Full Text
Aromataris E, Fernandez R, Godfrey CM, Holly C, Khalil H, Tungpunkom P. Summarizing systematic reviews: methodological development, conduct and reporting of an umbrella review approach. Int J Evid Based Healthc. 2015; 13:132-40. DOI | PubMed
Whiting P, Savović J, Higgins JP, ROBIS group. ROBIS: A new tool to assess risk of bias in systematic reviews was developed. J Clin Epidemiol. 2016; 69:225-34. DOI | PubMed
Shea BJ, Grimshaw JM, Wells GA. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol. 2007; 7:10. DOI | PubMed
Shea BJ, Hamel C, Wells GA. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol. 2009; 62:1013-20. DOI | PubMed
Shea BJ, Bouter LM, Peterson J. External validation of a measurement tool to assess systematic reviews (AMSTAR). PLoS One. 2007; 2:e1350. DOI | PubMed
Kung J, Chiappelli F, Cajulis OO. From systematic reviews to clinical recommendations for evidence-based health care: validation of revised assessment of multiple systematic reviews (R-AMSTAR) for grading of clinical relevance. Open Dent J. 2010; 4:84-91. PubMed
Pieper D, Buechter RB, Li L, Prediger B, Eikermann M. Systematic review found AMSTAR, but not R(evised)-AMSTAR, to have good measurement properties. J Clin Epidemiol. 2015; 68:574-83. DOI | PubMed
Faggion CM. Critical appraisal of AMSTAR: challenges, limitations, and potential solutions from the perspective of an assessor. BMC Med Res Methodol. 2015; 15:63. PubMed
Teich ST, Heima M, Lang L. Dental Students’ Use of AMSTAR to Critically Appraise Systematic Reviews. J Dent Educ. 2015; 79:1031-9. PubMed
Burda BU, Holmer HK, Norris SL. Limitations of a measurement tool to assess systematic reviews (amstar) and suggestions for improvement. Syst Rev. 2016; 5:58. PubMed
Wegewitz U, Weikert B, Fishta A, Jacobs A, Pieper D. Resuming the discussion of AMSTAR: What can (should) be made better?. BMC Med Res Methodol. 2016; 16:111. DOI | PubMed
Dahm P. Raising the bar for systematic reviews with Assessment of Multiple Systematic Reviews (AMSTAR). BJU Int. 2017; 119:193. DOI | PubMed
Egger M, Schneider M, Davey Smith G. Spurious precision? Meta-analysis of observational studies. BMJ. 1998; 316:140-4. DOI | PubMed
Renehan AG, Tyson M, Egger M, Heller RF, Zwahlen M. Body-mass index and incidence of cancer: a systematic review and meta-analysis of prospective observational studies. Lancet. 2008; 371:569-78. DOI | PubMed
Page MJ, Shamseer L, Altman DG. Epidemiology and reporting characteristics of systematic reviews of biomedical research: a cross-sectional study. PLoS Med. 2016; 13:e1002028. PubMed
Shapiro S. Meta-analysis/Shmeta-analysis. Am J Epidemiol. 1994; 140:771-8. DOI | PubMed
Fleiss JL, Gross AJ. Meta-analysis in epidemiology, with special reference to studies of the association between exposure to environmental tobacco smoke and lung cancer: a critique. J Clin Epidemiol. 1991; 44:127-39. DOI | PubMed
Leeflang MM, Deeks JJ, Gatsonis C, Bossuyt PM, Cochrane Diagnostic Test Accuracy Working Group. Systematic reviews of diagnostic test accuracy. Ann Intern Med. 2008; 149:889-97. DOI | PubMed
Riley RD, Lambert PC, Abo-Zaid G. Meta-analysis of individual participant data: rationale, conduct, and reporting. BMJ. 2010; 340:c221. DOI | PubMed
Lumley T. Network meta-analysis for indirect treatment comparisons. Stat Med. 2002; 21:2313-24. DOI | PubMed
Pawson R, Greenhalgh T, Harvey G, Walshe K. Realist review–a new method of systematic review designed for complex policy interventions. J Health Serv Res Policy. 2005; 10(Suppl 1):21-34. DOI | PubMed
Arksey H, O’Malley L. Scoping studies: towards a methodological framework. Int J Soc Res Methodol. 2005; 8:19-32. DOI
Higgins JP, Altman DG, Gøtzsche PC, Cochrane Bias Methods Group. Cochrane Statistical Methods Group. The Cochrane Collaboration’s tool for assessing risk of bias in randomized trials. BMJ. 2011; 343:d5928. DOI | PubMed
Sterne JA, Hernán MA, Reeves BC. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. BMJ. 2016; 355:i4919. DOI | PubMed
Publisher Full Text
DeAngelis CD, Fontanarosa PB. Impugning the integrity of medical science: the adverse effects of industry influence. JAMA. 2008; 299:1833-5. DOI | PubMed
Lexchin J, Bero LA, Djulbegovic B, Clark O. Pharmaceutical industry sponsorship and research outcome and quality: systematic review. BMJ. 2003; 326:1167-70. DOI | PubMed
Yaphe J, Edman R, Knishkowy B, Herman J. The association between funding by commercial interests and study outcome in randomized controlled drug trials. Fam Pract. 2001; 18:565-8. DOI | PubMed
Bilandzic A, Fitzpatrick T, Rosella L, Henry D. Risk of Bias in Systematic Reviews of Non-Randomized Studies of Adverse Cardiovascular Effects of Thiazolidinediones and Cyclooxygenase-2 Inhibitors: Application of a New Cochrane Risk of Bias Tool. PLoS Med. 2016; 13:e1001987. DOI | PubMed
Nüesch E, Trelle S, Reichenbach S. Small study effects in meta-analyses of osteoarthritis trials: meta-epidemiological study. BMJ. 2010; 341:c3515. DOI | PubMed
Bero L, El-Hachem P, Abou-Haidar H, Neumann I, Schünemann HJ, Guyatt GH. What is in a name? Nonfinancial influences on the outcomes of systematic reviews and guidelines. J Clin Epidemiol. 2014; 67:1239-41. DOI | PubMed
Publisher Full Text
Salas M, Hofman A, Stricker BH. Confounding by indication: an example of variation in the use of epidemiologic terminology. Am J Epidemiol. 1999; 149:981-3. DOI | PubMed
Ray WA. Evaluating medication effects outside of clinical trials: new-user designs. Am J Epidemiol. 2003; 158:915-20. DOI | PubMed
Suissa S. Immortal time bias in pharmaco-epidemiology. Am J Epidemiol. 2008; 167:492-9. DOI | PubMed
Greenland S, O’Rourke K. On the bias produced by quality scores in meta-analysis, and a hierarchical view of proposed solutions. Biostatistics. 2001; 2:463-71. DOI | PubMed
Jüni P, Witschi A, Bloch R, Egger M. The hazards of scoring the quality of clinical trials for meta-analysis. JAMA. 1999; 282:1054-60. DOI | PubMed
Publisher Full Text
Sanderson S, Tatt ID, Higgins JP. Tools for assessing quality and susceptibility to bias in observational studies in epidemiology: a systematic review and annotated bibliography. Int J Epidemiol. 2007; 36:666-76. DOI | PubMed
Publisher Full Text
McGettigan P, Henry D. Cardiovascular risk with non-steroidal anti-inflammatory drugs: systematic review of population-based controlled observational studies. PLoS Med. 2011; 8:e1001098. DOI | PubMed
Whiting P, Savović J, Higgins JP, ROBIS group. ROBIS: A new tool to assess risk of bias in systematic reviews was developed. J Clin Epidemiol. 2016; 69:225-34. PubMed

Fonte

Shea BJ, Reeves BC, Wells G, Thuku M, Hamel C, et al. (2017) AMSTAR 2: a critical appraisal tool for systematic reviews that include randomised or non-randomised studies of healthcare interventions, or both. The BMJ 358j4008. https://doi.org/10.1136/bmj.j4008